Generative AI で Roblox での創造に革命を起こす - Roblox ブログ

Generative AI で Roblox での創造に革命を起こす – Roblox ブログ

ソースノード: 2874293

今年の初めに、私たちは ビジョン Roblox 上の生成人工知能 (AI) と、すべてのユーザーがクリエイターになれる直感的な新しいツールを提供します。 これらのツールは業界全体で急速に進化しているため、これまでの進捗状況、生成 AI 作成の民主化に向けた今後の道のり、そして Roblox の方向性にとって生成 AI が重要な要素であると当社が考える理由について最新情報を提供したいと思いました。 

生成 AI と大規模言語モデル (LLM) の進歩は、安全性を維持しながら、大規模なコンピューティング リソースを必要とせずに、より簡単かつ迅速な作成を可能にすることで、没入型エクスペリエンスの未来を切り開く素晴らしい機会を提供します。 さらに、マルチモーダルな AI モデルの進歩により、画像、コード、テキスト、3D モデル、オーディオなどの複数の種類のコンテンツでトレーニングされることになり、作成ツールの新たな進歩への扉が開かれます。 これらの同じモデルは、テキスト出力やテキストを補完するいくつかのビジュアルを作成できるモデルなど、マルチモーダル出力も生成し始めています。 私たちは、これらの AI の躍進は、より経験豊富なクリエイターの効率を向上させると同時に、さらに多くの人々が Roblox で素晴らしいアイデアを実現できるようにする大きな機会であると考えています。 今年の時点で Roblox 開発者会議 (RDC)では、生成 AI を Roblox Studio 以降に導入し、Roblox を使用するすべての人がより迅速にスケールし、より迅速に反復し、スキルを強化してさらに優れたコンテンツを作成できるようにする、いくつかの新しいツールを発表しました。 

ロブロックスアシスタント

Roblox は常にクリエイターにツールを提供してきました。 サービス, サポート 没入型の 3D エクスペリエンスを構築する必要があります。 同時に、クリエイターがサードパーティの生成 AI や会話型 AI を使用して制作を支援し始めているのを私たちは見てきました。 これらは作成者の作業負荷を軽減するのに役立ちますが、これらの既製バージョンはエンドツーエンドの Roblox ワークフロー向けに設計されておらず、Roblox コード、スラング、専門用語についてトレーニングされていません。 つまり、クリエイターはこれらのバージョンを使用して Roblox 用のコンテンツを作成するために、大幅な追加作業に直面することになります。 私たちはこれらのツールの価値を Roblox Studio に組み込む方法に取り組んでおり、RDC ではアシスタントの初期の例を共有しました。

Assistant は会話型 AI であり、あらゆるスキル レベルのクリエイターが、創作に関わる日常的で反復的なタスクに費やす時間を大幅に削減し、ナラティブ、ゲームプレイ、エクスペリエンス デザインなどの価値の高い活動により多くの時間を費やすことができます。 Roblox は、トレーニング用の大規模な公開 3D モデルへのアクセス、モデルをプラットフォーム API と統合する機能、そして成長を続ける革新的な AI ソリューション スイートのおかげで、没入型 3D 世界向けの会話型 AI モデルを構築できる独自の立場にあります。 。 クリエイターは自然言語テキスト プロンプトを使用して、シーンを作成し、3D モデルを編集し、オブジェクトにインタラクティブな動作を適用できるようになります。 アシスタントは、学習、コーディング、構築という作成の XNUMX つのフェーズをサポートします。

  • 学習: Roblox での開発が初めてのクリエイターであっても、ベテランのベテランであっても、Roblox Assistant は自然言語を使用してさまざまな面で質問に答えるのに役立ちます。 
  • コーディング: アシスタントが最近の内容を詳しく説明します コードアシスト 道具。 たとえば、開発者はアシスタントにコードを改善したり、コードのセクションを説明したり、デバッグを手伝ったり、適切に動作しないコードの修正を提案したりすることができます。
  • 建物: アシスタントは、クリエイターが新しいアイデアを迅速にプロトタイプ化するのに役立ちます。 たとえば、新しいクリエイターは、「この道路沿いに街灯を追加してください」または「さまざまな種類の木で森を作成してください」などのプロンプトを入力するだけで、シーン全体を生成し、さまざまなバージョンを試すことができます。 次に、茂みと花を追加します。」

アシスタントとの連携は協力的、インタラクティブ、反復的なものとなり、クリエイターはフィードバックを提供し、アシスタントに適切なソリューションを提供してもらうことができます。 パートナーとして専門のクリエイターがいるようなもので、アイデアをぶつけたり、納得するまでアイデアを試したりすることができます。

frameborder="0" allow="加速度計; 自動再生; クリップボード書き込み; 暗号化されたメディア; ジャイロスコープ; ピクチャーインピクチャー; web-share” allowfullscreen>

アシスタントを最高のパートナーにするために、RDC で別の発表を行いました。開発者を次のように招待しました。 オプトイン 匿名化されたルアウスクリプトデータを提供するために。 このスクリプト データは、Code Assist や Assistant などの AI ツールがより効率的なコードの提案と作成を大幅に改善し、それらを使用する Roblox 開発者に還元するのに役立ちます。 さらに、開発者が Roblox 以外で共有することを選択した場合、スクリプト データはサードパーティが利用できるデータセットに追加され、AI チャット ツールがより効果的に Luau コードを提案できるようにトレーニングされ、世界中の Luau 開発者に還元されます。

明確にしておきますが、包括的なユーザー調査とトップ開発者との透明性のある対話を通じて、これをオプトインできるように設計し、すべての参加者がプログラムの内容を理解し、同意できるように支援します。 Roblox とのスクリプト データの共有に参加することを選択したユーザーに感謝の気持ちを込めて、このコミュニティでトレーニングされたモデルを活用した、より強力なバージョンのアシスタントとコード アシストへのアクセスを許可します。 オプトインしていないユーザーは、引き続き既存のバージョンのアシスタントとコード アシストにアクセスできます。

アバター作成がより簡単に 

最終的には、毎日 65.5 万人のユーザーが、自分を真に表現し、自分自身を表現するアバターを持てるようにしたいと考えています。 最近、UGC プログラム メンバー向けの機能をリリースしました。 アバターボディとスタンドアロンヘッドの両方を作成して販売します。 現在、そのプロセスには Studio または UGC プログラムへのアクセス、かなり高度なスキル、そして顔の表情、体の動き、3D リギングなどを可能にするために数日かかる作業が必要です。そのため、アバターの作成には時間がかかり、日付、利用可能なオプションの数が限られています。 私たちはさらに前進したいと考えています。

Roblox の誰もがパーソナライズされた表現力豊かなアバターを持てるようにするには、アバターの生成とカスタマイズを非常に簡単にする必要があります。 RDC では、2024 つまたは複数の画像からカスタム アバターを簡単に作成できるようにする、XNUMX 年にリリースする新しいツールを発表しました。 このツールを使用すると、Studio または UGC プログラムにアクセスできるクリエイターは、画像をアップロードし、アバターを作成して、好きなように変更することができます。 長期的には、これを Roblox のエクスペリエンス内で直接利用できるようにする予定です。

これを可能にするために、私たちは Roblox のアバター スキーマと Roblox が所有する一連の 3D アバター モデルで AI モデルをトレーニングしています。 XNUMX つのアプローチでは、 研究 3D 画像から 2D 様式化されたアバターを生成します。 また、事前トレーニングされたテキストから画像への拡散モデルを使用して、限られた 3D トレーニング データを 2D 生成技術で強化することや、敵対的生成ネットワーク (GAN) ベースの 3D 生成ネットワークをトレーニングに使用することも検討しています。 最後に、私たちは使用に取り組んでいます コントロールネット 事前定義されたポーズを重ねて、結果として得られるアバターのマルチビュー画像をガイドします。 

このプロセスにより、アバターの 3D メッシュが生成されます。 次に、3D を活用します。 セマンティックセグメンテーションの研究、3D アバターのポーズでトレーニングされ、その 3D メッシュを調整して適切な顔の特徴、ケージ、リギング、テクスチャを追加し、本質的には静的な 3D メッシュを Roblox アバターにします。 最後に、メッシュ編集ツールを使用すると、ユーザーはモデルをモーフィングおよび調整して、想像しているバージョンに近づけることができます。 これらすべてが数分以内に迅速に行われ、Roblox にインポートしてエクスペリエンスで使用できる新しいアバターが生成されます。

frameborder="0" allow="加速度計; 自動再生; クリップボード書き込み; 暗号化されたメディア; ジャイロスコープ; ピクチャーインピクチャー; web-share” allowfullscreen>

音声コミュニケーションのモデレート

私たちにとって AI は単に創造するだけでなく、多様性と安全性を備えた市民コミュニティを大規模に確保するためのより効率的なシステムでもあります。 ボイス チャットや Roblox Connect、アバターとしての新しい通話機能、RDC で発表された API などの新しい音声機能の展開を開始するにつれて、音声言語をリアルタイムでモデレートするという新たな課題に直面しています。 このための現在の業界標準は、自動音声認識 (ASR) として知られるプロセスです。これは基本的に音声ファイルを取得し、それを文字に起こしてテキストに変換し、テキストを分析して不適切な言語やキーワードなどを探します。 

これは、小規模な企業で ASR を使用する場合にはうまく機能しますが、同じ ASR プロセスを使用して音声通信を調整することを検討したところ、私たちの規模ではそれが困難で非効率であることがすぐにわかりました。 このアプローチでは、話者の音量や声のトーン、さらには会話のより広範なコンテキストにエンコードされた非常に貴重な情報も失われます。 私たちが毎日、さまざまな言語で文字に起こしなければならない何百万分の会話のうち、不適切であるように聞こえる可能性があるのはごくわずかの割合だけです。 そして、拡大を続けると、そのシステムを維持するにはさらに多くのコンピューティング能力が必要になります。 そこで私たちは、ライブ音声から直接コンテンツにラベルを付けてポリシーに違反しているかどうかを示すパイプラインを構築することで、これをより効率的に行う方法を詳しく検討しました。

最終的に、ASR を使用して社内の音声データ セットを分類し、その分類された音声データを使用してシステムをトレーニングすることで、社内のカスタム音声検出システムを構築することができました。 より具体的には、この新しいシステムをトレーニングするには、音声から始めてトランスクリプトを作成します。 次に、Roblox テキスト フィルター システムを通してトランスクリプトを実行し、音声を分類します。 このテキスト フィルター システムは、Roblox 固有のスラング、略語、専門用語に関して長年この同じフィルター システムを最適化してきているため、Roblox 上のポリシーに違反する言語の検出に優れています。 これらの層のトレーニングの最後には、音声から直接リアルタイムでポリシー違反を検出できるモデルが完成します。

このシステムには冒涜などの特定のキーワードを検出する機能がありますが、ポリシー違反が XNUMX つの単語だけであることはほとんどありません。 ある単語は、ある文脈では問題があるように見えても、別の文脈では問題なく見えることがよくあります。 基本的に、この種の違反には、発言内容、発言方法、発言の文脈が関係します。

コンテキストをよりよく理解するために、シーケンスの要約に非常に優れているトランスフォーマーベースのアーキテクチャのネイティブ機能を活用します。 オーディオ ストリームなどの一連のデータを取得し、それを要約することができます。 このアーキテクチャにより、より長い音声シーケンスを保存できるため、単語だけでなくコンテキストやイントネーションも検出できます。 これらすべての要素が結合されると、入力がオーディオで出力が分類 (ポリシーに違反するかどうか) になる最終的なシステムが完成します。 このシステムは、キーワードやポリシーに違反するフレーズだけでなく、意図を判断するために重要な口調、感情、その他のコンテキストも検出できます。 この新しいシステムは、ポリシーに違反する音声を音声から直接検出するもので、従来の ASR システムよりもコンピューティング効率が大幅に向上しており、人々が集まる方法を再考し続ける中での拡張がはるかに容易になります。

また、音声コミュニケーション ツールを使用する人々に、この種の言語の潜在的な結果について警告する新しい方法も必要でした。 この革新的な検出システムを自由に使えるようにして、私たちは現在、安全な環境を維持するためにオンラインの行動に影響を与える方法を実験しています。 私たちは、人々が意図せずしてポリシーに違反することがあることを認識しており、時折リマインドすることがさらなる違反の防止に役立つかどうかを理解したいと考えています。 これを支援するために、通知を介したリアルタイムのユーザー フィードバックを実験中です。 あなたが当社のポリシーに違反する発言を何回か行ったことをシステムが検出した場合、あなたの言語が当社のポリシーに違反していることを知らせるポップアップ通知が画面に表示され、詳細については当社のポリシーに案内されます。

ただし、音声ストリーム通知はモデレーション システムの XNUMX つの要素にすぎません。 また、プラットフォーム上の行動パターンや、Roblox 上の他のユーザーからの苦情も調査して、全体的なモデレーションの決定を推進します。 これらのシグナルが集約されると、オーディオ機能へのアクセスが取り消されたり、より深刻な違反の場合はプラットフォームから完全に禁止されたりするなど、より強力な結果が生じる可能性があります。 マルチモーダル AI モデル、生成 AI、LLM の進歩が連携して、クリエイター向けの驚くべき新しいツールと機能を可能にするため、コミュニティを安全かつ礼儀正しく保つことが重要です。 

これらのツールをクリエイターに提供することで、経験の浅いクリエイターの参入障壁が下がり、経験豊富なクリエイターがこのプロセスの退屈なタスクから解放されると信じています。 これにより、微調整やアイデアの創意に富んだ側面により多くの時間を費やすことができます。 これらすべてに関する私たちの目標は、どこにいても誰もが自分のアイデアを実現できるようにし、Roblox で利用できるアバター、アイテム、体験の多様性を大幅に増やすことです。 私たちも 新しい創作物の保護に役立つ情報とツールを共有する

私たちはすでに驚くべき可能性を想像しています。写真から直接アバターのドッペルゲンガーを作成できる人がいるとします。その後、アバターをカスタマイズして背を高くしたり、アニメ スタイルでレンダリングしたりすることができます。 あるいは、アシスタントに車、建物、風景を追加したり、照明や風の条件を設定したり、地形を変更したりするように依頼して、エクスペリエンスを構築することもできます。 そこからは、アシスタントを使用して入力を行ったり来たりするだけで、内容を調整することを繰り返すことができます。 これらのツールが利用可能になると、人々がそれを使って作成するものの現実は、私たちの想像をはるかに超えるものになることを私たちは知っています。

タイムスタンプ:

より多くの ROBLOX