7 年に AI を変革する最も強力な 2023 言語 (LLM) およびビジョン言語モデル (VLM)

7 年に AI を変革する最も強力な 2023 言語 (LLM) およびビジョン言語モデル (VLM)

ソースノード: 2757531

BLIP-2、視覚言語モデル

急速に進化する人工知能の分野では、自然言語処理が研究者と開発者の両方にとって焦点となっています。 ~の基礎の上に構築する 変圧器のアーキテクチャ および BERT の双方向アップグレード、近年、いくつかの画期的な言語モデルが登場し、機械が理解して生成できるものの限界を押し広げています。

この記事では、大規模言語モデルの世界における最新の進歩について詳しく掘り下げ、各モデルによって導入された機能強化、その機能、および潜在的なアプリケーションを探っていきます。 また、テキスト データだけでなくビジュアル データも処理するようにトレーニングされた Visual Langauge Model (VLM) についても見ていきます。

スキップしたい場合は、ここで紹介した言語モデルをご覧ください。

  1. OpenAIによるGPT-3
  2. Google の LaMDA
  3. Palm by Google
  4. フラミンゴ by DeepMind
  5. BLIP-2 by Salesforce
  6. LLaMA by Meta AI
  7. OpenAIによるGPT-4

この詳細な教育コンテンツが役立つ場合は、次のことができます。 AIリサーチメーリングリストに登録する 新しい素材がリリースされたときに警告が表示されます。 

2023 年に最も重要なラージ言語モデル (LLM) とビジュアル言語モデル (VLM)

1.OpenAIによるGPT-3

まとめ 

OpenAI チームは、新しい言語タスクごとにラベル付きデータセットを用意する代わりに、GPT-3 を導入しました。 彼らは、言語モデルをスケールアップすると、タスクに依存しない少数ショットのパフォーマンスが向上する可能性があることを示唆しています。 この提案をテストするために、彼らは 175B パラメーターの自己回帰言語モデルをトレーニングしました。 GPT-3であり、3 を超える NLP タスクでそのパフォーマンスを評価しました。 少数ショット学習、ワンショット学習、およびゼロショット学習での評価は、GPT-XNUMX が有望な結果を達成し、微調整されたモデルによって達成された最先端の結果を上回ることさえあることを示しました。 

目標は何ですか? 

  • 新しい言語タスクごとにラベル付きデータセットが必要な場合に、既存の問題に対する代替ソリューションを提案する。

問題はどのようにアプローチされますか?

  • 研究者は、言語モデルをスケールアップして、タスクに依存しない少数ショットのパフォーマンスを向上させることを提案しました。 
  •   GPT-3 モデルは、変更された初期化、事前正規化、可逆トークン化など、GPT-2 と同じモデルとアーキテクチャを使用します。
  • ただし、GPT-2とは対照的に、トランスフォーマーのレイヤーでは、次のように、密な注意パターンと局所的にバンド化されたまばらな注意パターンが交互に使用されます。 スパーストランスフォーマー.
GPT-3

結果はどうですか?

  • 微調整なしのGPT-3モデルは、多くのNLPタスクで有望な結果を達成し、その特定のタスク用に微調整された最先端のモデルを時折上回ります。
    • ソフトウェア設定ページで、下図のように CoQA ベンチマーク、微調整されたSOTAによって達成された81.5 F1スコアと比較して、ゼロショット設定で84.0 F1、ワンショット設定で85.0 F1、および数ショット設定で90.7F1。
    • ソフトウェア設定ページで、下図のように トリビアQA ベンチマーク、ゼロショット設定で64.3%の精度、ワンショット設定で68.0%、および数ショット設定で71.2%であり、最先端技術(68%)を3.2%上回っています。
    • ソフトウェア設定ページで、下図のように ランバダ データセット、ゼロショット設定で76.2%の精度、ワンショット設定で72.5%、および数ショット設定で86.4%であり、最先端技術(68%)を18%上回っています。
  • 人間の評価によると、175BパラメータGPT-3モデルによって生成されたニュース記事は、実際のニュース記事と区別するのが困難です(精度は約52%のチャンスレベルをわずかに上回っています)。 
  • GPT-3 の驚くべきパフォーマンスにもかかわらず、AI コミュニティからはさまざまなレビューが寄せられました。
    • 「GPT-3の誇大宣伝はあまりにも多すぎます。 それは印象的です(素晴らしい褒め言葉に感謝します!)が、それでも深刻な弱点があり、時には非常にばかげた間違いを犯します。 AIは世界を変えようとしていますが、GPT-3はごく初期の垣間見ることができます。 まだ理解していないことがたくさんあります。」 – OpenAIのCEO兼共同創設者であるSamAltman.
    • 「GPT-3からイスラム教徒に関するテキストを生成するのがどれほど難しいかということにショックを受けました。暴力や殺害とは何の関係もありません…」– GradioのCEO兼創設者であるAbubakarAbid.
    • "番号。 GPT-3は基本的にそれが話している世界を理解していません。 コーパスをさらに増やすと、より信頼できるパスティーシュを生成できますが、世界の理解の根本的な欠如を修正することはできません。 GPT-4のデモでは、人間によるチェリーピッキングが必要です。」 – Robust.aiのCEO兼創設者であるGaryMarcus.
    • 「GPT3の壮大なパフォーマンスを未来に外挿すると、生命、宇宙、そしてすべてに対する答えは、わずか4.398兆のパラメーターであることがわかります。」 – チューリング賞受賞者、ジェフリーヒントン.

この研究の詳細はどこで確認できますか?

実装コードはどこで入手できますか?

  • コード自体は利用できませんが、GPT-2048からの無条件のフィルタリングされていない3トークンのサンプルと一緒にいくつかのデータセット統計がリリースされています GitHubの.

2.GoogleのLaMDA

まとめ 

La言語 Mのモデル D対話 Aアプリケーション (TheMDA) は、対話用に特別に設計された Transformer ベースのニューラル言語モデルのグループを微調整するプロセスを通じて作成されました。 これらのモデルには最大 137B のパラメーターがあり、外部の知識源を使用するようにトレーニングされています。 LaMDA の開発者は、品質、安全性、根拠という XNUMX つの重要な目標を念頭に置いていました。 その結果、微調整により品質のギャップを人間のレベルまで狭めることができるが、モデルのパフォーマンスは安全性と接地性に関して人間のレベルを下回ったままであることが実証されました。 

グーグルの吟遊詩人、 リリース 最近、ChatGPT の代替として、LaMDA を利用しています。 吟遊詩人はしばしば次のように分類されますが、 退屈なこれは、生成型 AI の分野で優位性を確立するための Google と Microsoft の激しい競争の中でさえ、安全性を優先するという Google のコミットメントの証拠と見なすことができます。

目標は何ですか? 

  • ダイアログ エージェントが、信頼できる情報源に基づいた、信頼できる情報源に基づいた、コンテキストに固有の、適切な応答を使用して、任意のトピックについて会話できる、オープン ドメイン ダイアログ アプリケーションのモデルを構築すること。

問題はどのようにアプローチされますか?

  • LaMDAは上に構築されています トランスフォーマーは、Google Research が 2017 年に発明してオープンソース化したニューラル ネットワーク アーキテクチャです。
    • BERT や GPT-3 などの他の大規模な言語モデルと同様に、LaMDA はテラバイト単位のテキスト データでトレーニングされ、単語が互いにどのように関連しているかを学習し、次にどの単語が来る可能性があるかを予測します。 
    • ただし、ほとんどの言語モデルとは異なり、LaMDA は対話でトレーニングされ、オープンエンドの会話を他の形式の言語と区別するニュアンスを拾い上げました。
  • このモデルは、反応の良識、安全性、および特異性を改善するために微調整もされています。 「いいですね」や「わかりません」などのフレーズは、多くのダイアログ シナリオで意味を持ちますが、興味深く魅力的な会話につながる可能性は低いです。
    • LaMDA ジェネレーターは最初にいくつかの候補応答を生成します。それらはすべて、安全性、賢明さ、具体性、および興味深い点に基づいてスコア付けされます。 安全性スコアが低い応答は除外され、上位の結果が応答として選択されます。
LaMDA ダイアログの例

結果はどうですか?

  • 多数の実験により、LaMDA はさまざまなトピックに関するオープンエンドの会話に参加できることが示されています。
  • 一連の定性的な評価により、モデルの応答は賢明で、具体的で、興味深く、信頼できる外部ソースに基づいている傾向があることが確認されましたが、まだ改善の余地があります。
  • これまでに達成されたすべての進歩にもかかわらず、著者は、モデルには不適切または有害な応答を生成する可能性がある多くの制限がまだあることを認識しています.

この研究の詳細はどこで確認できますか?

実装コードはどこで入手できますか?

  • LaMDA の事前トレーニング アーキテクチャ用のオープンソース PyTorch 実装は、次のサイトで入手できます。 GitHubの.

3. GoogleによるPaLM

まとめ 

Paずいぶん L怒り Mオデル (手のひら) は、540 億のパラメーターを持つ Transformer ベースの言語モデルです。 PaLM は、Pathways を使用して 6144 個の TPU v4 チップでトレーニングされました。これは、複数の TPU Pod で効率的にトレーニングするための新しい ML システムです。 このモデルは、数ショット学習のスケーリングの利点を実証し、数百の言語理解および生成ベンチマークで最先端の結果を達成しています。 PaLM は、多段階の推論タスクで微調整された最先端のモデルよりも優れており、BIG-bench ベンチマークで平均的な人間のパフォーマンスを上回っています。

目標は何ですか? 

  • 大規模な言語モデルのスケーリングが少数ショット学習にどのように影響するかについての理解を深めるため。

問題はどのようにアプローチされますか?

  • 重要なアイデアは、Pathways システムを使用して 540 億のパラメーター言語モデルのトレーニングをスケーリングすることです。
    • チームは、各ポッド内で標準のデータとモデルの並列処理を使用しながら、4つのCloudTPUvXNUMXポッド全体でポッドレベルでデータの並列処理を使用していました。
    • 彼らは、トレーニングを6144 TPU v4チップに拡張することができました。これは、これまでのトレーニングに使用された最大のTPUベースのシステム構成です。
    • このモデルは、57.8%のハードウェアFLOP使用率のトレーニング効率を達成しました。これは、著者が主張するように、この規模の大規模言語モデルでこれまでに達成されたトレーニング効率の中で最も高いものです。 
  • PaLMモデルのトレーニングデータには、高品質のWebドキュメント、書籍、ウィキペディア、会話、GitHubコードを含む英語と多言語のデータセットの組み合わせが含まれていました。
GoogleによるPaLMモデル

結果はどうですか?

  • 多くの実験は、チームが最大のモデルにスケーリングするにつれて、モデルのパフォーマンスが急激に向上することを示しています。
  • PaLM 540Bは、複数の非常に困難なタスクで画期的なパフォーマンスを達成しました。
    • 言語の理解と生成. 導入されたモデルは、質問応答タスク、穴埋めおよび文完成タスク、文脈読解タスク、常識推論タスク、SuperGLUE タスク、およびもっと。 大きなベンチ タスクでの PaLM のパフォーマンスは、原因と結果を区別し、適切なコンテキストで概念の組み合わせを理解できることを示しました。
    • 推論。 PaLMは、8ショットのプロンプトを使用して、GSM58Kの問題の8%を解決します。これは、数千の難しい小学校レベルの数学の質問のベンチマークであり、GPT-55 3Bモデルを微調整することで達成された以前の最高スコア175%を上回ります。 PaLMは、多段階の論理的推論、世界の知識、および深い言語理解の複雑な組み合わせを必要とする状況で、明示的な説明を生成する機能も示しています。
    • コード生成。 PaLMは、トレーニングに使用するPythonコードを12分の50に抑えながら、微調整されたCodex XNUMXBと同等のパフォーマンスを発揮し、大規模な言語モデルが他のプログラミング言語と自然言語データの両方からの学習をより効果的に転送することを確認します。

この研究の詳細はどこで確認できますか?

実装コードはどこで入手できますか?

  • PaLM 研究論文の特定の Transformer アーキテクチャの非公式の PyTorch 実装は、次のサイトで入手できます。 GitHubの. スケーリングは行われず、教育目的でのみ公開されています。 

4. フラミンゴ by DeepMind

まとめ 

Flamingo は、テキストと画像が混在する大規模なマルチモーダル Web コーパスでトレーニングされた、最先端のビジュアル言語モデル (VLM) ファミリです。 このトレーニングにより、モデルは、プロンプトとして提供される最小限の注釈付きサンプルを使用して、新しいタスクに適応できます。 Flamingo には、事前トレーニング済みの視覚専用モデルと言語専用モデルの長所を統合し、可変的にインターリーブされたビジュアル データとテキスト データのシーケンスを処理し、入力として画像やビデオをシームレスに処理するように設計された主要なアーキテクチャの進歩が組み込まれています。 このモデルは、視覚的な質問応答、キャプションタスク、多肢選択式の視覚的な質問応答など、さまざまな画像およびビデオのタスクに優れた適応性を示し、数ショット学習でタスク固有のプロンプトを使用して新しいパフォーマンス基準を設定します。

目標は何ですか? 

  • マルチモーダル モデルが短い指示に基づいて新しいタスクを迅速に学習して実行できるようにするためには、次の手順を実行します。
    • 大量の教師ありデータでモデルを事前トレーニングし、その後特定のタスクに合わせて微調整するという広く使用されているパラダイムは、リソースを大量に消費し、タスクごとの慎重なハイパーパラメータ調整とともに、数千の注釈付きデータ ポイントが必要です。 
    • 対照的な目標を使用する現在のモデルは、新しいタスクへのゼロショット適応を可能にしますが、言語生成機能が欠けているため、キャプションや視覚的な質問応答などのより自由なタスクには不十分です。 
    • この研究は、これらの問題に効果的に対処し、低データ領域で優れたパフォーマンスを実証する新しいモデルを導入することを目的としています。

問題はどのようにアプローチされますか?

  • DeepMind は、いくつかの入出力例のみを使用して、さまざまなオープンエンドの視覚および言語タスクを数回で学習できるように設計された VLM である Flamingo を紹介しました。
  • Flamingo モデルは、画像やビデオと混合されたテキスト トークンを処理し、出力としてテキストを生成できる、視覚的に条件付けされた自己回帰テキスト生成モデルです。
  • Flamingo のアーキテクチャには、XNUMX つの相補的な事前トレーニング済みおよび凍結モデルが組み込まれています。
    • 視覚的なシーンを「認識」できる視覚モデル。
    • 基本的な推論を実行する役割を担う大規模な言語モデル。
  • 新しいアーキテクチャ コンポーネントは、計算負荷の高い事前トレーニング中に得られた知識を保持する方法でこれらのモデルを統合します。
  • さらに、Flamingo モデルは Perceiver ベースのアーキテクチャを特徴としており、高解像度の画像やビデオを取り込むことができます。 このアーキテクチャは、広範囲かつ可変の視覚入力機能から画像/ビデオごとに固定数の視覚トークンを生成できます。

結果はどうですか?

  • 研究では、優れた少数ショット学習者である LLM と同様に、VLM も、分類、キャプション、質問応答などの画像やビデオの理解タスクについて、いくつかの入出力例から学習できることが示されています。
  • Flamingo は、数ショット学習における新しいベンチマークを確立し、16 のマルチモーダル言語および画像/ビデオ理解タスクの幅広い範囲で優れたパフォーマンスを実証します。
  • これら 6 のタスクのうち 16 つのタスクについて、Flamingo は、タスク固有のサンプルを 32 個しか使用していないにもかかわらず、微調整された最先端のパフォーマンスを上回っています。つまり、タスク固有のトレーニング データは、現在の最高パフォーマンスのモデルよりも約 1000 分の XNUMX です。
フラミンゴの視覚言語モデル

この研究の詳細はどこで確認できますか?

実装コードはどこで入手できますか?

  • DeepMind は Flamingo の正式な実装をリリースしませんでした。 
  • 導入されたアプローチのオープンソース実装は、次の場所にあります。 OpenFlamingo Github リポジトリ.
  • 代替の PyTorch 実装が利用可能です こちら.

5. Salesforce による BLIP-2

まとめ 

BLIP-2 は、視覚および言語モデルのための効率的かつ汎用的な事前トレーニング フレームワークであり、大規模モデルの事前トレーニングにかかる​​法外なコストを回避するために設計されています。 BLIP-2 は、既製のフリーズされた事前トレーニング済み画像エンコーダーとフリーズされた大規模言語モデルを利用して、ビジョン言語の事前トレーニングをブートストラップし、2 段階で事前トレーニングされた軽量の Querying Transformer を組み込みます。 第 80 段階では、凍結された画像エンコーダーから視覚言語表現の学習を開始し、第 8.7 段階では、凍結言語モデルから視覚から言語への生成学習を推進します。 BLIP-2 は、トレーニング可能なパラメーターが大幅に少ないにもかかわらず、最先端の手法を上回り、トレーニング可能なパラメーターが 54 分の XNUMX 少ないゼロショット VQAvXNUMX で DeepMind の FlamingoXNUMXB を XNUMX% 上回りました。 このモデルは、自然言語命令に従って、有望なゼロショット画像からテキストへの生成機能も示します。

BLIP-2フレームワーク
BLIP-2のフレームワークの概要

目標は何ですか? 

  • 計算コストを削減しながら、ビジョン言語タスクで最先端のパフォーマンスを実現します。

問題はどのようにアプローチされますか?

  • Salesforce チームは、BLIP-2 と呼ばれる新しいビジョン言語事前トレーニング フレームワークを導入しました。 Bウーストラッピング L言語 -I魔法使い P凍結された単峰性モデルを使用した再トレーニング:
    • 事前トレーニングされた単峰モデルは、計算コストを削減し、壊滅的な忘却の問題を回避するために、事前トレーニング中フリーズされたままになります。
    • クロスモーダル調整を促進し、事前トレーニングされた視覚モデルと事前トレーニングされた言語モデルの間のモダリティのギャップを埋めるために、チームは、フリーズされた画像エンコーダーとフリーズされた画像エンコーダーの間の情報ボトルネックとして機能する軽量の Querying Transformer (Q-Former) を提案します。 LLM。
    • Q-former は、新しい XNUMX 段階の戦略で事前トレーニングされています。
      • 最初の事前トレーニング段階では、視覚言語表現の学習を実行します。 これにより、Q-Former はテキストに最も関連する視覚的表現を学習するように強制されます。
      • XNUMX 番目の事前トレーニング ステージでは、Q-Former の出力を凍結された LLM に接続することによって、視覚から言語への生成学習を実行します。 Q-Former は、その出力視覚表現が LLM によって解釈できるようにトレーニングされます。

結果はどうですか?

  • BLIP-2 は、視覚的な質問応答、画像キャプション、画像テキスト検索など、さまざまな視覚言語タスクにわたって優れた最先端の結果を提供します。
    • たとえば、ゼロショット VQAv8.7 では Flamingo を 2% 上回ります。
  • さらに、この優れたパフォーマンスは、コンピュータの効率が大幅に向上することで実現されます。
    • BLIP-2 は、トレーニング可能なパラメーターの数が 80 倍少ないにもかかわらず、Flamingo-54B よりも優れたパフォーマンスを発揮します。 
  • BLIP-2 は、自然言語の指示に応じてゼロショットの画像からテキストへの生成を実行する機能を備えており、それにより、特に視覚的な知識推論や視覚的な会話などのスキルを開発するための道を開きます。
  • 最後に、BLIP-2 は、より洗練されたユニモーダル モデルを活用して視覚言語の事前トレーニングのパフォーマンスをさらに強化できる多用途のアプローチであることに注意することが重要です。
BLIP-2の結果
BLIP-2の結果

この研究の詳細はどこで確認できますか?

実装コードはどこで入手できますか?

公式の BLIP-2 実装は、次の場所で入手できます。 GitHubの.

6.メタAIによるLLaMA

まとめ 

メタ AI チームは、より多くのトークンでトレーニングされた小さなモデルは、特定の製品アプリケーション向けに再トレーニングおよび微調整が容易であると主張しています。 したがって、彼らは紹介します ラマ (Lアルジェ La言語 Mオーデルメタ AI)、7B から 65B のパラメーターを持つ基本的な言語モデルのコレクション。 LLaMA 33B と 65B は 1.4 兆トークンでトレーニングされ、最小モデルの LLaMA 7B は 13 兆トークンでトレーニングされました。 彼らは、独自のデータや制限されたデータに依存することなく、公開されているデータセットのみを使用しました。 チームはまた、主要なアーキテクチャの強化とトレーニング速度の最適化手法を実装しました。 その結果、LLaMA-3B は GPT-10 よりも 65 倍以上小型で性能が優れており、LLaMA-540B は PaLM-XNUMXB と競合する性能を示しました。

目標は何ですか? 

  • プロプライエタリまたは制限されたデータ ソースに依存せずに、公開されているデータセットのみで最高のパフォーマンスを発揮するモデルをトレーニングすることの実現可能性を実証すること。
  • 研究コミュニティに小規模で高性能なモデルを提供し、大量のインフラストラクチャにアクセスできない人が大規模な言語モデルを研究できるようにする。

問題はどのようにアプローチされますか?

  • LLaMA モデルをトレーニングするために、研究者は公開されており、オープン ソースと互換性のあるデータのみを使用しました。
  • また、標準の Transformer アーキテクチャにいくつかの改善を導入しました。
    • GPT-3 方法論を採用し、トレーニングの安定性は、出力を正規化するのではなく、各トランス サブレイヤーの入力を正規化することによって強化されました。
    • PaLM モデルに着想を得て、研究者は ReLU 非線形性を SwiGLU 活性化関数に置き換えて、パフォーマンスを向上させました。
    • 触発され スーら (2021)、彼らは絶対位置埋め込みを排除し、代わりに、ネットワークのすべてのレイヤーに回転位置埋め込み(RoPE)を組み込みました。
  • 最後に、Meta AI チームはモデルのトレーニング速度を次のように改善しました。
    • アテンションの重みを保存したり、マスクされたキー/クエリのスコアを計算したりしないことにより、効率的な因果的マルチヘッド アテンションの実装を使用します。
    • チェックポイントを使用して、バックワード パス中に再計算されたアクティベーションを最小限に抑えます。
    • アクティベーションの計算とネットワークを介した GPU 間の通信のオーバーラップ (all_reduce 操作による)。

結果はどうですか?

  • LLaMA-13B は 3 分の 10 以上小さいにもかかわらず GPT-65 を上回り、LLaMA-540B は PaLM-XNUMXB に対して独自のものを保持しています。

この研究の詳細はどこで確認できますか?

実装コードはどこで入手できますか?

  • Meta AI は、学術研究者、政府関係者、市民社会、学術機関、およびグローバルな産業研究所に、個別のケース評価ベースで LLaMA へのアクセスを提供します。 お申し込みは下記まで GitHubリポジトリ.

7.OpenAIによるGPT-4

まとめ 

GPT-4 画像とテキストの入力を受け入れ、テキスト出力を生成する大規模なマルチモーダル モデルです。 競争と安全上の懸念から、モデルのアーキテクチャとトレーニングに関する具体的な詳細は差し控えられます。 パフォーマンスに関しては、GPT-4 は従来のベンチマークで以前の言語モデルを上回り、ユーザーの意図の理解と安全性の特性が大幅に改善されています。 このモデルはまた、シミュレートされた制服司法試験で上位 10% のスコアを含む、さまざまな試験で人間レベルのパフォーマンスを達成します。

目標は何ですか? 

  • 画像とテキストの入力を受け入れ、テキスト出力を生成できる大規模なマルチモーダル モデルを開発する。 
  • 幅広い規模で予測どおりに動作するインフラストラクチャと最適化の方法を開発すること。

問題はどのようにアプローチされますか?

  • 競争環境と安全性への影響により、OpenAI は、アーキテクチャ、モデル サイズ、ハードウェア、トレーニング コンピューティング、データセット構築、およびトレーニング方法に関する詳細を差し控えることにしました。
  • 彼らは次のことを明らかにしています。
    • GPT-4 は Transformer ベースのモデルで、ドキュメント内の次のトークンを予測するように事前トレーニングされています。
    • 公開されているデータとサードパーティのライセンス データを利用します。
    • このモデルは、人間のフィードバックからの強化学習 (RLHF) を使用して微調整されました。
  • 未確認の情報によると、GPT-4 は以前のモデルのような単一の高密度モデルではなく、それぞれ 220 億という驚異的なパラメーターを詰め込んだ XNUMX つの個別のモデルの強力な連合体であることが示唆されています。
GPT-4 のパフォーマンス

結果はどうですか?

  • GPT-4 は、ほとんどの専門的および学術的試験で人間レベルの成績を達成しており、特に、シミュレートされた統一司法試験で上位 10% を獲得しています。
  • 事前トレーニング済みのベース GPT-4 モデルは、ベンチマーク固有の作成や追加のトレーニング プロトコルを使用しなくても、従来の NLP ベンチマークで既存の言語モデルや以前の最先端のシステムよりも優れています。
  • GPT-4 は、ChatGPT および OpenAI API からの 3.5 のプロンプトの 70.2% で、GPT-5,214 の応答よりも優先される応答で、ユーザーの意図に従うことにおいて大幅な改善を示しています。
  • GPT-4 の安全特性は GPT-3.5 と比較して大幅に改善されており、許可されていないコンテンツ リクエストへの対応が 82% 減少し、機密性の高いリクエスト (医療アドバイスや自傷行為など) のポリシーへの準拠が 29% 増加しています。

この研究の詳細はどこで確認できますか?

実装コードはどこで入手できますか?

  • GPT-4 のコード実装は利用できません。

大規模 (ビジョン) 言語モデルの実世界への応用

近年の最も重要な AI 研究のブレイクスルーは、膨大なデータセットでトレーニングされた大規模な AI モデルから生まれています。 これらのモデルは印象的なパフォーマンスを示しており、AI がカスタマー サービス、マーケティング、e コマース、ヘルスケア、ソフトウェア開発、ジャーナリズムなどの業界全体にどのように革命を起こすことができるかを考えるのは興味深いことです。

大規模な言語モデルには、多数の実世界のアプリケーションがあります。 GPT-4 には以下がリストされています。

  • チャットボットと仮想アシスタントのための自然言語の理解と生成。
  • 言語間の機械翻訳。
  • 記事、レポート、またはその他のテキスト ドキュメントの要約。
  • 市場調査またはソーシャル メディア モニタリングのためのセンチメント分析。
  • マーケティング、ソーシャル メディア、またはクリエイティブ ライティングのためのコンテンツ生成。
  • カスタマー サポートまたはナレッジ ベース用の質問応答システム。
  • スパム フィルタリング、トピックの分類、またはドキュメントの整理のためのテキスト分類。
  • パーソナライズされた語学学習および個別指導ツール。
  • コード生成とソフトウェア開発支援。
  • 医療、法律、および技術文書の分析と支援。
  • テキストから音声への変換や音声からテキストへの変換など、障害を持つ個人のためのアクセシビリティ ツール。
  • 音声認識および書き起こしサービス。

視覚的な部分を追加すると、応用できる範囲はさらに広がります。

最近の AI のブレークスルーをたどり、その潜在的な実世界への応用について考えるのは非常にエキサイティングです。 ただし、これらのモデルを実際に展開する前に、対応するリスクと制限に対処する必要があります。残念ながら、これは非常に重要です。

リスクと制限

GPT-4 にそのリスクと制限について尋ねると、関連する懸念事項の長いリストが提供される可能性があります。 このリストをフィルタリングし、いくつかの追加の考慮事項を追加した後、最新の大規模言語モデルが持つ次の一連の主要なリスクと制限にたどり着きました。

  1. 偏見と差別: これらのモデルは、多くの場合、偏見や差別的な内容を含む膨大な量のテキスト データから学習します。 その結果、生成された出力は、ステレオタイプ、攻撃的な言葉遣い、および性別、人種、宗教などの要因に基づく差別を不注意に永続させる可能性があります。
  2. 誤報: 大規模な言語モデルは、事実に反する、誤解を招く、または時代遅れのコンテンツを生成する可能性があります。 モデルはさまざまなソースでトレーニングされていますが、常に最も正確な情報や最新の情報が提供されるとは限りません。 多くの場合、これはモデルが、たとえ誤解を招くものであっても、文法的に正しい、または首尾一貫しているように見える出力の生成を優先するために発生します。
  3. 理解不足: これらのモデルは人間の言葉を理解しているように見えますが、主にトレーニング データのパターンと統計的関連性を識別することによって機能します。 彼らは自分が生成するコンテンツを深く理解していないため、無意味または無関係な結果になることがあります。
  4. 不適切なコンテンツ: 言語モデルは、攻撃的、有害、または不適切なコンテンツを生成する場合があります。 このようなコンテンツを最小限に抑えるための努力が払われていますが、トレーニング データの性質や、モデルがコンテキストやユーザーの意図を識別できないことが原因で、コンテンツが発生する可能性があります。

まとめ

大規模な言語モデルは、間違いなく自然言語処理の分野に革命をもたらし、さまざまな役割や業界で生産性を向上させる大きな可能性を示しています。 人間のようなテキストを生成し、日常的なタスクを自動化し、創造的および分析的なプロセスを支援する能力により、今日のペースの速いテクノロジー主導の世界では不可欠なツールとなっています。

ただし、これらの強力なモデルに関連する制限とリスクを認識して理解することが重要です。 偏見、誤報、悪用の可能性などの問題は無視できません。 これらの AI 駆動型テクノロジを日常生活に統合し続ける中で、特に機密性の高いリスクの高い状況では、その機能の活用と人間による監視の確保との間でバランスを取ることが不可欠です。

ジェネレーティブ AI テクノロジーを責任を持って採用することに成功すれば、人工知能と人間の専門知識が連携してイノベーションを推進し、すべての人にとってより良い世界を創造する未来への道が開かれます。

この記事をお楽しみください? AIリサーチの最新情報にサインアップしてください。

このような要約記事がさらにリリースされたらお知らせします。

タイムスタンプ:

より多くの トップボット