Dolly 2.0: ChatGPT 商用利用向けオープンソース代替品

プラトン再発行

フォロワー： 0

Dolly 2.0: 商用利用のためのChatGPTオープンソース代替
著者からの画像 | Bing イメージクリエーター

ドリー2.0 は、人間が生成したデータセットに基づいて微調整された、オープンソースの命令従う大規模言語モデル (LLM) です。研究目的と商業目的の両方に使用できます。

Dolly 2.0: 商用利用のためのChatGPTオープンソース代替
Image from ハグフェイススペース by RamAnanth1

以前、Databricks チームは ドリー1.0, LLM は、ChatGPT のような命令追従能力を示し、トレーニング費用は 30 ドル未満です。これは、制限付きライセンス (研究のみ) の下にある Stanford Alpaca チームのデータセットを使用していました。

Dolly 2.0 は、12B パラメータ言語モデルを微調整することでこの問題を解決しました (ピティア) は、Datbricks 従業員によってラベル付けされた、次のデータセット内の人間が生成した高品質の命令についてです。モデルとデータセットは両方とも商用利用できます。

Dolly 1.0 は、OpenAI API を使用して作成された Stanford Alpaca データセットでトレーニングされました。データセットには ChatGPT からの出力が含まれており、OpenAI と競合するためにそれを使用することを防ぎます。つまり、このデータセットに基づいて商用チャットボットや言語アプリケーションを構築することはできません。

過去数週間にリリースされた最新モデルのほとんどは同じ問題に悩まされていました。アルパカ, コアラ, GPT4すべて, ビキューナ。これを回避するには、商用利用できる新しい高品質のデータセットを作成する必要があります。これは、Databricks チームが databricks-dolly-15k データセットを使用して行ったことです。

新しいデータセットには、大規模な言語モデルを調整する命令の設計に使用できる、人間がラベル付けした高品質のプロンプト/応答ペアが 15,000 個含まれています。のデータブリック-ドリー-15k データセットには付属していますクリエイティブ・コモンズ表示 - 継承 3.0 非移植ライセンス、誰でもそれを使用、変更し、商用アプリケーションを作成することができます。

databricks-dolly-15k データセットはどのようにして作成されたのでしょうか?

OpenAI の研究紙元の InstructGPT モデルは 13,000 のプロンプトと応答でトレーニングされたと述べています。 Databricks チームはこの情報を使用して作業を開始しましたが、13 の質問と回答を生成するのは困難な作業であることが判明しました。合成データや AI 生成データを使用することはできず、すべての質問に対して独自の回答を生成する必要があります。ここで、Databricks の 5,000 人の従業員を利用して人間が生成したデータを作成することにしました。

Databricks は、上位 20 名のラベル作成者に大きな賞が与えられるコンテストを設定しました。このコンテストには、LLM に非常に興味を持つ 5,000 人の Databricks 従業員が参加しました。

dolly-v2-12b は最先端のモデルではありません。一部の評価ベンチマークでは、dolly-v1-6b よりもパフォーマンスが劣ります。これは、基礎となる微調整データセットの構成とサイズが原因である可能性があります。 Dolly モデルファミリは現在開発が進められているため、将来的にはパフォーマンスが向上した更新バージョンが登場する可能性があります。

つまり、dolly-v2-12b モデルは、EleutherAI/gpt-neox-20b および EleutherAI/pythia-6.9b よりも優れたパフォーマンスを示しています。

Dolly 2.0: 商用利用のためのChatGPTオープンソース代替
Image from フリードリー

Dolly 2.0 は 100% オープンソースです。これには、トレーニングコード、データセット、モデルの重み、推論パイプラインが付属しています。すべてのコンポーネントは商用利用に適しています。ハグフェイススペースでモデルを試すことができますドリー V2 by RamAnanth1.

Dolly 2.0: 商用利用のためのChatGPTオープンソース代替
Image from ハグ顔

リソース：

ドリー 2.0 デモ: ドリー V2 by RamAnanth1

アビッド・アリ・アワン (@ 1abidaliawan）は、機械学習モデルの構築を愛する認定データサイエンティストの専門家です。現在、彼はコンテンツの作成と、機械学習とデータサイエンステクノロジーに関する技術ブログの執筆に注力しています。 Abidは、技術管理の修士号と電気通信工学の学士号を取得しています。彼のビジョンは、精神疾患に苦しんでいる学生のためにグラフニューラルネットワークを使用してAI製品を構築することです。