ControlNet と StarCoder: 生成 AI のための Roblox 研究の進歩 - Roblox ブログ

プラトン再発行

フォロワー： 0

私たちは、人工知能 (AI) を含むあらゆる分野に責任ある研究とコミュニティが関与する研究を追求することに深く取り組んでいます。私たちは、透明性、外部からの検証、そして協力と後援による学術機関の支援を通じてこれを実現します。このアプローチにより、生成 AI、データセンターの拡張、オンラインの安全性という XNUMX つの重点分野での最大の進歩の達成を加速することができます。本日は、XNUMX つの生成 AI 研究プロジェクトからの洞察と結果を共有します。コントロールネットは、より正確な画像出力を実現するために画像生成モデルに条件付き制御を追加するオープンソースのニューラルネットワークです。スターコーダーは、コード生成用の最先端のオープンソース大規模言語モデル (LLM) です。

どちらのプロジェクトも学術と業界のコラボレーションです。どちらも、クリエイター、つまり 3D アーティストやプログラマーのための、根本的により強力なツールにも焦点を当てています。最も重要なことは、革新的な研究を通じて長期的な視点に投資するという私たちの使命と一致しており、これらのプロジェクトは、多くのアプリケーションに対する AI の基本的な科学的理解と制御における進歩の兆候を示しています。私たちは、この研究がRobloxの将来とこの分野全体に重大な影響を与える可能性があると信じており、それを率直に共有できることを誇りに思っています。

コントロールネット

最近の AI の進歩、特にディープニューラルネットワークを使用したデータ駆動型機械学習 (ML) 手法は、作成ツールの新たな進歩を推進しました。これらの進歩には、コードアシストおよびマテリアルジェネレーターこれらの機能は、無料ツール Roblox Studio で公開されています。最新の生成 AI システムには、数十億回のトレーニング操作を通じて洗練されたモデルと呼ばれるデータ構造が含まれています。現在最も強力なモデルはマルチモーダルです。つまり、テキスト、画像、音声などのメディアの混合でトレーニングされます。これにより、カラーパレットやスペルなどのデータセットの特定の要素に過剰適合するのではなく、メディア全体で共通の根底にある意味を見つけることができます。

これらの新しい AI システムは優れた表現力を持っていますが、その力は主に「迅速なエンジニアリング」によって導かれます。これは、期待した結果が返されなかった場合に検索エンジンのクエリを調整するのと同様に、単に入力テキストを変更することを意味します。これは、無指向性チャットボットなどの新しいテクノロジーを活用するには魅力的な方法かもしれませんが、コンテンツを作成する効率的または効果的な方法ではありません。クリエイターは代わりに、推測ではなくアクティブなコントロールを通じて効果的に活用できる強力なツールを必要としています。

ControlNet プロジェクトは、これらの課題のいくつかを解決するための一歩です。これは、次のような大規模な事前トレーニングされた AI モデルの力を活用する効率的な方法を提供します。安定拡散、迅速なエンジニアリングに依存せずに。 ControlNet は、アーティストが単なるテキストプロンプトを超えた追加の入力条件を提供できるようにすることで、制御を強化します。 Roblox の研究者でスタンフォード大学教授の Maneesh Agrawala 氏とスタンフォード研究者の Lvmin Zhang 氏は、共同 ControlNet プロジェクトの目標を次のように定めています。

生成 AI ツール用のより優れたユーザーインターフェイスを開発します。曖昧なプロンプト操作を超えて、アイデアや創造的なコンセプトを伝えるためのより自然な方法を構築します。
より緻密な空間制御により、「こんな絵」「～っぽい絵」を作るだけでなく、作り手の頭の中にあるイメージをそのまま具現化することができます。
生成的 AI トレーニングを、より高速に実行され、必要なメモリと電力消費量が少ない、より計算効率の高いプロセスに変換します。
画像生成 AI を再利用可能な構成要素に拡張します。その後、標準化された画像処理および 3D レンダリングパイプラインと統合できます。

ControlNet では、作成者が空間制御用の追加画像を提供できるようにすることで、最終的に生成される画像をより詳細に制御できるようになります。たとえば、既存のテキスト画像ジェネレーターで「角のある雄の鹿」というプロンプトを表示すると、以下に示すようなさまざまな画像が生成されました。

以前の AI ソリューションで生成されたこれらの画像は魅力的ですが、残念ながら本質的に恣意的な結果であり、制御することができません。これらの以前の画像生成システムでは、テキストプロンプトを修正する以外に出力を制御する方法はありません。

ControlNet を使用すると、作成者はさらに大きな権限を得ることができます。 ControlNet を使用する XNUMX つの方法は、プロンプトとソースイメージの両方を提供して、従うべき一般的な形状を決定することです。この場合、結果として得られる画像は依然として多様性を提供しますが、重要なことに、指定された形状は保持されます。

作成者は、一連のエッジ、まったくプロンプトのない画像、またはシステムに表現力豊かな入力を提供する他の多くの方法を指定することもできます。

ControlNet を作成するには、大規模な拡散モデルのネットワーク内のウェイトを XNUMX つのバージョンに複製します。 XNUMXつは、 トレーニング可能なネットワーク (これは制御を提供します。これは「ControlNet」です)、もう XNUMX つは ロックされたネットワーク。ロックされたネットワークは、数十億の画像から学習した機能を保存しており、以前の画像ジェネレーターである可能性があります。次に、追加の画像から条件付き制御を学習するために、タスク固有のデータセットで訓練可能なネットワークを訓練します。トレーニング可能でロックされたコピーは、私たちが呼ぶ独自のタイプの畳み込み層に接続されています。 ゼロ畳み込みここで、畳み込みの重みは、学習された方法でゼロから最適化されたパラメーターまで徐々に増加します。これは、最初は影響がなく、システムがロックされたネットワークに及ぼす最適な制御レベルを導き出すことを意味します。

元の重みがロックされたネットワークを介して保存されるため、モデルはさまざまなサイズのトレーニングデータセットで適切に機能します。また、ゼロ畳み込み層によりプロセスが大幅に高速化され、新しい層を最初からトレーニングするよりも拡散モデルの微調整に近いものになります。

私たちは、画像生成のためのこの技術について広範な検証を行ってきました。 ControlNet は、出力画像の品質を向上させるだけではありません。また、特定のタスクに向けたネットワークのトレーニングがより効率的になり、何百万人ものクリエイター向けに大規模に展開するのが現実的になります。実験では、ControlNet は、モデルを完全に再トレーニングする必要がある別のシナリオと比較して、最大 10 倍の効率向上を実現します。新しいモデルの作成プロセスは従来のソフトウェア開発に比べて時間とリソースを大量に消費するため、この効率は非常に重要です。トレーニングをより効率的にすることで、電力が節約され、コストが削減され、新しい機能の追加率が向上します。

ControlNet の独自の構造は、さまざまなサイズおよびさまざまな種類のメディア上のトレーニングデータセットを適切に処理できることを意味します。 ControlNet は、写真、手書きの落書き、オープンポーズ姿勢検出。私たちは、ControlNet を生成 AI コンテンツのさまざまな種類のメディアに適用できると考えています。これ研究はオープンで公開されていますコミュニティが実験して構築できるように、私たちはさらに多くの発見があれば、より多くの情報を提示し続けます。

スターコーダー

生成 AI は、画像、音声、テキスト、プログラムソースコード、またはその他の形式のリッチメディアの生成に適用できます。ただし、さまざまなメディアにわたって、最も大きな成功を収めたアプリケーションは、出力が主観的に判断されるアプリケーションである傾向があります。たとえば、画像は人間の視聴者の興味を引くときに成功します。画像全体が魅力的であれば、エッジの奇妙な特徴や手の余分な指など、画像内の特定のエラーに気付かない場合があります。同様に、詩や短編小説には文法上の誤りや論理的な飛躍があるかもしれませんが、要点が説得力がある場合には、それらを許容する傾向があります。

主観的な基準を考慮する別の方法は、結果空間が連続的であるということです。ある結果が別の結果よりも優れている可能性がありますが、その結果が完全に許容できるか許容できないかの特定のしきい値はありません。他の領域やメディア形式の場合、出力は客観的に判断されます。たとえば、生成 AI プログラミングアシスタントによって生成されたソースコードは、正しいか正しくないかのどちらかです。コードがテストに合格できない場合、それが有効なソリューションのコードに似ていても、コードは失敗します。これは離散結果空間です。離散空間で成功することは、基準がより厳格であることと、適切な解決策に徐々に近づくことができないため、コードが突然機能するまで壊れているため、より困難です。

テキスト出力に使用される LLM は、チャットボットなどの主観的で継続的なアプリケーションに適しています。また、英語やフランス語など、多くの人間の言語での散文の生成にも適しているようです。ただし、既存の LLM は、次の場合にはうまく機能しないようです。 プログラミング 人間の言語と同じように。コードは数学の一形式であり、自然言語とはまったく異なる客観的な意味表現方法です。これは、連続的な結果空間ではなく、離散的な結果空間です。 Roblox 作成者向けに最高品質のプログラミング言語コード生成を実現するには、この離散的で客観的な空間で適切に機能する LLM を適用する方法が必要です。また、Lua、JavaScript、Python など、特定の言語構文に依存しないコード機能を表現するための堅牢な方法も必要です。

コード生成用の新しい最先端のオープンソース LLM である StarCoder は、この技術的課題に対する大きな進歩であり、誰にとっても真にオープンな LLM です。 StarCoder は、ビッグコード研究コンソーシアムには、学術研究機関および業界研究機関の 600 名を超えるメンバーが参加しています。 Roblox の研究者であり、ノースイースタン大学教授の Arjun Guha 氏は、このチームを率いて StarCoder を開発するのに貢献しました。これらの最初に公開された結果は、主観的な手法が相対的に成功していることを考慮すると、この分野で新たな成長が最も必要とされている領域であるコードの側面にのみ焦点を当てています。

大規模な AI エコシステムと Roblox コミュニティをサポートする LLM を通じて生成 AI を提供するには、適切にライセンスされ、責任を持って収集されたデータセットのみを使用してトレーニングされたモデルが必要です。これらには、誰でも使用し、その上に構築し、エコシステムに貢献できるように、無制限のライセンスも付与する必要があります。現在、最も強力な LLM は独自のものであるか、限定された形式の商用利用が許可されており、研究者がモデル自体を実験する能力は禁止または制限されています。対照的に、StarCoder は真のオープンモデルであり、産業界と学術研究者の連合によって作成され、あらゆる規模の商業用途に制限なくライセンスされています。 StarCoder は、責任を持って収集され、適切にライセンスされたコンテンツのみを対象としてトレーニングされています。モデルは当初、公開コードでトレーニングされており、自分のコードをトレーニングに使用したくない場合はオプトアウトプロセスを利用できます。

現在、StarCoder は、Python、C++、Java を含む 86 の異なるプログラミング言語で動作します。この論文が出版された時点では、複数の言語をサポートするすべてのオープンコード LLM よりも優れたパフォーマンスを示しており、多くのクローズドな独自モデルとさえ競合していました。

StarCoder LLM はエコシステムへの貢献ですが、私たちの研究目標はさらに深いものです。この研究の最大の効果は、コード、テキスト、画像、音声、ビデオを含む客観的および主観的なマルチモーダルモデルのセマンティックモデリングを進歩させ、ドメイン転送技術を通じてトレーニング効率を向上させることです。また、ソースコード生成などの客観的なタスクに対する生成 AI の保守性と制御性についても深い洞察が得られると期待しています。新しいテクノロジーの興味深いデモンストレーションと、ユーザーコミュニティに価値をもたらす安全で信頼性が高く効率的な製品の間には大きな違いがあります。 ML モデルでは、メモリフットプリント、省電力、実行時間のパフォーマンスを最適化します。また、堅牢なインフラストラクチャを開発し、AI コアをシステムの他の部分に接続するソフトウェアで囲み、新機能の追加に応じて頻繁に更新できるシームレスなシステムを開発しました。

Roblox の科学者とエンジニアを科学コミュニティの最も鋭い頭脳と結集させることは、当社が画期的なテクノロジーを追求する上で重要な要素です。私たちはこれらの初期の結果を共有できることを誇りに思い、研究コミュニティに私たちと関わり、これらの進歩をさらに発展させるよう呼びかけます。