LLM を評価するより良い方法 - KDnuggets

プラトン再発行

フォロワー： 0

LLM の開発における最近の進歩により、以前は古い機械学習手法を使用して取り組んでいたさまざまな NLP タスクに対する LLM の使用が普及しました。大規模な言語モデルは、分類、要約、情報検索、コンテンツ作成、質問応答、会話の維持など、さまざまな言語の問題をすべて XNUMX つのモデルを使用して解決できます。しかし、これらすべてのさまざまなタスクで彼らが適切に仕事をしていることをどうやって知ることができるでしょうか?

LLM の台頭により、LLM を評価するための信頼できる基準がないという未解決の問題が明らかになりました。評価を難しくしているのは、それらが非常に多様なタスクに使用されており、各ユースケースに対する適切な答えが明確に定義されていないことです。

この記事では、LLM を評価する現在のアプローチについて説明し、既存の評価手法を改良した人間の評価を活用した新しい LLM リーダーボードを紹介します。

最初の、そして通常の最初の評価形式は、いくつかの厳選されたデータセットでモデルを実行し、そのパフォーマンスを調べることです。ハグフェイスが作成した LLM リーダーボードを開くここで、オープンアクセスの大規模モデルは XNUMX つのよく知られたデータセット (AI2 推理チャレンジ , ヘラスワッグ , MMLU , 正直なQA）。これは自動評価に対応し、いくつかの特定の質問に対する事実を取得するモデルの能力をチェックします。

こちらはお客様からのご質問の一例です MMLU データセット。

件名: 大学_医学

質問: クレアチンの補給で予想される副作用は次のとおりです。

A) 筋力低下
B) 体重の増加
C) 筋肉のけいれん
D) 電解質の損失

回答：（B）

この種の質問に答えてモデルをスコアリングすることは重要な指標であり、事実確認には役立ちますが、モデルの生成能力をテストするものではありません。フリーテキストの生成は LLM の最も重要な機能の XNUMX つであるため、これがおそらくこの評価方法の最大の欠点です。

コミュニティ内では、モデルを適切に評価するには人間による評価が必要であるということでコンセンサスがあるようです。これは通常、異なるモデルからの応答を比較することによって行われます。

LLM を評価するより良い方法
LMSYS プロジェクトの XNUMX つのプロンプト補完の比較 – 著者によるスクリーンショット

上の例に見られるように、アノテーターはどちらの応答が優れているかを判断し、場合によってはプロンプト入力の品質の違いを定量化します。 LMSYS 組織が作成したリーダーこのタイプの人による評価を使用し、17 の異なるモデルを比較し、エロ評価各モデルごとに。

人間による評価は規模を拡大するのが難しいため、評価プロセスを拡大し、スピードアップする取り組みが行われ、その結果、次のような興味深いプロジェクトが生まれました。アルパカエヴァル。ここでは、各モデルがベースライン (GPT-003 によって提供される text-davinci-4) と比較され、人間による評価が GPT-4 の判断に置き換えられます。これは確かに高速でスケーラブルですが、スコアリングを実行するモデルを信頼できるでしょうか? モデルのバイアスに注意する必要があります。このプロジェクトは実際、GPT-4 がより長い回答を好む可能性があることを示しました。

AI コミュニティが簡単、公平、スケーラブルなアプローチを模索するにつれて、LLM の評価方法は進化し続けています。最新の開発は、Toloka のチームによる新しいものです。リーダー現在の評価基準をさらに進化させます。

新しいリーダーモデルの応答と実際のユーザープロンプトを比較します。これらのプロンプトは、次で概説されている便利な NLP タスクごとに分類されています。この InstructGPT 論文。また、すべてのカテゴリーにわたる各モデルの全体的な勝率も表示されます。

LLM を評価するより良い方法
Toloka リーダーボード – 著者によるスクリーンショット

このプロジェクトで使用される評価は、AlpacaEval で実行されるものと似ています。リーダーボードのスコアは、各モデルの勝率を、グアナコ 13B モデル。ここではベースライン比較として機能します。 Guanaco 13B の選択は、間もなく時代遅れになる text-davinci-003 モデルをベースラインとして使用する AlpacaEval メソッドの改良です。

実際の評価は、現実世界のプロンプトに対して人間の専門アノテーターによって行われます。各プロンプトに対して、アノテーターには XNUMX つの補完が与えられ、どちらを好むかを尋ねられます。方法論の詳細を確認できますこちら.

このタイプの人による評価は、他の自動評価方法よりも有用であり、評価に使用される人による評価を改善する必要があります。 LMSYS リーダーボード。 LMSYS メソッドの欠点は、が評価に参加できるため、この方法で収集されたデータの品質について深刻な疑問が生じます。専門家アノテーターのクローズドな集団は、信頼性の高い結果を得る可能性が高く、Toloka は追加の品質管理技術を適用してデータの品質を保証します。

この記事では、LLM を評価するための有望な新しいソリューションである Toloka Leaderboard を紹介しました。このアプローチは革新的で、既存の方法の長所を組み合わせ、タスク固有の粒度を追加し、信頼性の高いヒューマンアノテーション技術を使用してモデルを比較します。

ボードを調べて、改善のための意見や提案を私たちと共有してください。

マグダレナ・コンキェヴィチ は、迅速かつスケーラブルな AI 開発をサポートする世界的な企業である Toloka のデータエバンジェリストです。彼女はエディンバラ大学で人工知能の修士号を取得しており、ヨーロッパとアメリカの企業で NLP エンジニア、開発者、データサイエンティストとして働いてきました。彼女はデータサイエンティストの教育と指導にも携わっており、データサイエンスと機械学習の出版物に定期的に寄稿しています。