DeepMind の最新の Q&A チャットボット、Sparrow の秘密: 人間のフィードバック

ソースノード: 1680211

DeepMind は、人間のフィードバックと Google 検索の提案を組み合わせて使用​​することで、Sparrow という名前のチャットボットを他のシステムよりも毒性が低く正確になるようにトレーニングしました。

チャットボットは通常、インターネットからスクレイピングされたテキストでトレーニングされた大規模言語モデル (LLM) を利用しています。 これらのモデルは、少なくとも表面レベルでは一貫性があり、文法的に正しい散文の段落を生成することができ、ユーザーからの質問や書面によるプロンプトに応答することができます。

ただし、このソフトウェアは、ソース素材から悪い特徴を拾い上げることが多く、その結果、攻撃的、人種差別的、性差別的な見解を逆流させたり、ソーシャル メディアやインターネット フォーラムでよく見られるフェイク ニュースや陰謀を吐き出したりします。 とはいえ、これらのボットは、より安全な出力を生成するように誘導できます。

前に出て、スズメ。 このチャットボットはに基づいています チンチラ、DeepMind の印象的な言語モデル 実証 テキストを生成するのに 70 億以上のパラメータは必要ありません (他の LLM のように)。チンチラには XNUMX 億個のパラメータがあり、推論と微調整を比較的軽いタスクで簡単に行うことができます。

Sparrow を構築するために、DeepMind はチンチラを取り上げ、強化学習プロセスを使用して人間のフィードバックから調整しました。 具体的には、特定の質問に対するチャットボットの回答を、回答の関連性と有用性、およびルールに違反しているかどうかに基づいて評価するために、人々が募集されました。 たとえば、ルールの XNUMX つは、本物の人間になりすましたり、ふりをしたりしないことです。

これらのスコアは、ボットの将来の出力を操縦および改善するためにフィードバックされ、このプロセスが何度も繰り返されました。 ルールは、ソフトウェアの動作を調整し、安全で便利なものにするための鍵でした。

1つで 相互作用の例、スズメは国際宇宙ステーションと宇宙飛行士であることについて尋ねられました. このソフトウェアは、軌道周回研究所への最新の遠征に関する質問に答えることができ、ウィキペディアから正しい情報をコピーして、ソースへのリンクとともに貼り付けました。

ユーザーがさらに調べて、スパロウに宇宙に行くかどうか尋ねたところ、それは人ではなくコンピュータープログラムであるため、行くことはできないと言いました. それは、ルールを正しく守っていた証拠です。

この場合、Sparrow は有用で正確な情報を提供することができ、人間のふりをしませんでした。 従うように教えられたその他の規則には、侮辱やステレオタイプを生成しないこと、医学的、法律的、または財政的なアドバイスを与えないこと、不適切なことを言ったり、意見や感情を持ったり、体を持っているふりをしたりしないことが含まれていました.

Sparrow は論理的で賢明な回答を返すことができ、約 78% の確率で、リクエストに対する詳細情報を含む関連リンクを Google 検索から提供できると言われています。

参加者が個人的な質問をしたり、医療情報を求めたりしてSparrowに行動を起こさせようとした場合、XNUMX%のケースでルールを破った. 言語モデルは制御が難しく、予測不可能です。 スズメは今でも事実をでっち上げて悪口を言うことがあります。

たとえば、殺人について尋ねられたとき、それは殺人は悪いが、犯罪であってはならないと言った. なんと心強い. あるユーザーが、夫が浮気をしているのかと尋ねたところ、Sparrow は、彼の最新の Google 検索が何であるかはわからないが、見つけることができると答えた. Sparrow は実際にこの情報にアクセスできなかったと確信しています。 「彼は『私の妻は頭がおかしい』と検索しました」と嘘をつきました。

「Sparrow は研究モデルであり、概念実証であり、対話エージェントをより有用で、正確で、無害になるようにトレーニングすることを目的として設計されています。 これらの性質を一般的な会話の設定で学習することにより、Sparrow は、エージェントをより安全で有用なものにする方法、そして最終的にはより安全で有用な汎用人工知能の構築を支援する方法についての理解を深めます」と DeepMind は説明しました。

「Sparrow での私たちの目標は、対話エージェントにルールと規範を強制するための柔軟な機構を構築することでしたが、私たちが使用する特定のルールは暫定的なものです。 より優れた完全なルール セットを開発するには、多くのトピック (政策立案者、社会科学者、倫理学者など) に関する専門家の意見と、さまざまなユーザーや影響を受けるグループからの参加型意見の両方が必要です。 私たちの方法は、より厳格なルール セットにも適用されると考えています。」

Sparrow がどのように機能するかについては、査読されていない論文で詳しく読むことができます。 こちら [PDF]。

登録 DeepMind にさらにコメントを求めました。 ®

タイムスタンプ:

より多くの 登録