問題の核心: LLM のトレーニングにおけるコピーの謎を解く - データバーシティ

プラトン再発行

フォロワー： 0

過去 15 か月を振り返ると、ChatGPT の導入と一般公開に続く生成 AI と大規模言語モデル (LLM) の進歩が見出しを占めました。

この進歩の構築要素は、Google 研究者チームが「」というタイトルの論文で概説した Transformer モデルアーキテクチャでした。注意はあなたが必要とするすべてです」タイトルが示すように、すべての Transformer モデルの重要な特徴は注意のメカニズムであり、論文では次のように定義されています。

「アテンション関数は、クエリと一連のキーと値のペアを出力にマッピングするものとして説明できます。ここで、クエリ、キー、値、出力はすべてベクトルです。出力は値の重み付けされた合計として計算され、各値に割り当てられた重みは、対応するキーとのクエリの互換性関数によって計算されます。

生成 AI モデルの特徴は、テキスト、画像、オーディオファイル、ビデオファイル、または入力の任意の組み合わせで構成されるデータ入力を大量に消費することです (このケースは通常「マルチモーダル」と呼ばれます)。著作権の観点から見ると、(多くの重要な質問の中でも) 尋ねるべき重要な質問は、トレーニング資料がファイルに保存されるかどうかです。大規模な言語モデル (LLM) さまざまな LLM ベンダーによって作成されます。この質問に答えるためには、テキスト素材がどのように処理されるかを理解する必要があります。以下に、テキストに焦点を当てて、LLM トレーニングのまさにその側面について、技術的ではない簡単な説明を示します。

人間は単語を順番に並べることによって自然言語でコミュニケーションをとります。単語の順序や特定の形式に関する規則は、特定の言語 (英語など) によって決まります。テキストを処理するすべてのソフトウェアシステム (したがって、処理するすべての AI システム) のアーキテクチャの重要な部分は、システムの機能が最も効率的に実行できるようにテキストを表現する方法です。したがって、言語モデルにおけるテキスト入力の処理における重要なステップは、ユーザー入力を AI システムが理解できる特別な「単語」に分割することです。それらの特別な単語は「トークン」と呼ばれます。それを担当するコンポーネントは「トークナイザー」と呼ばれます。トークナイザーには多くの種類があります。たとえば、OpenAI と Azure OpenAI は、Generative Pretrained Transformer (GPT) ベースのモデルに「Byte-Pair Encoding (BPE)」と呼ばれるサブワードトークン化方法を使用しています。 BPE は、特定のトークン数または語彙サイズに達するまで、最も頻繁に発生する文字またはバイトのペアを 1 つのトークンにマージする方法です。語彙サイズが大きいほど、モデルが生成できるテキストはより多様で表現力豊かになります。

AI システムは入力テキストをトークンにマッピングすると、トークンを数値にエンコードし、処理したシーケンスを「単語埋め込み」と呼ばれるベクトルに変換します。ベクトルは順序付けられた数値の集合であり、テーブル内の行または列と考えることができます。これらのベクトルは、テキストとして与えられた元の自然言語表現を保存するトークンの表現です。著作権に関しては、単語の埋め込みの役割を理解することが重要です。埋め込みは文全体、さらには段落の表現 (またはエンコード) を形成し、したがってベクトルの組み合わせでは、高次元ベクトル空間内の文書全体も形成するからです。 AI システムはこれらの埋め込みを通じて、自然言語から単語の意味と関係を取得して保存します。

埋め込みは、生成 AI システムが実行するほぼすべてのタスク (テキスト生成、テキスト要約、テキスト分類、テキスト翻訳、画像生成、コード生成など) で使用されます。通常、Word 埋め込みはベクトルデータベースに保存されますが、使用されているベンダー、プロセス、実践方法が多種多様であるため、保存に対するすべてのアプローチの詳細な説明はこの投稿の範囲を超えています。

前述したように、ほとんどすべての LLM は、アテンションメカニズムを呼び出す Transformer アーキテクチャに基づいています。後者により、AI テクノロジーは、単なる文字のシーケンスとしてではなく、文全体、さらには段落を全体として表示できるようになります。これにより、ソフトウェアは単語が出現する可能性のあるさまざまなコンテキストをキャプチャできるようになります。これらのコンテキストは、著作権で保護された作品を含むトレーニングで使用される作品によって提供されるため、恣意的なものではありません。このようにして、言葉の本来の使用法、原作の表現が AI システムに保存されます。それは複製および分析が可能であり、新しい表現の基礎を形成することができます (特定の状況によっては、著作権用語で「二次的著作物」として特徴付けられる場合があります)。

LLM は、トレーニングされた元の作品の表現を保持します。彼らは専用のベクトル空間でテキストの内部表現を形成し、トリガーとして適切な入力が与えられると、トレーニングで使用されたオリジナルの作品を再現できます。 AI システムは、ベースとなる LLM のトレーニングに使用される、著作権で保護されたコンテンツを含むコンテンツから永続的な利益を引き出します。 LLM は、元の作品の単語の表現に基づいて単語の文脈を認識します。そして、このコンテキストは、トレーニングで使用される数千、または数百万の著作物にわたって AI システムに累積的に利益をもたらします。これらのオリジナルの作品は、著作権で保護された作品のベクトル (元の自然言語表現を保存するトークンのベクトル空間表現) に保存されているため、AI システムによって再作成できます。著作権の観点から見ると、トレーニング資料が LLM に保存されるかどうかを判断することが問題の中心であり、その質問に対する答えが「はい」であることは明らかです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/

タイムスタンプ： 2024 年 2 月 2 日

タイムスタンプ： 2023 年 12 月 14 日

プラトン再発行

DataStax デモ: Apache Cassandra と Apache Pulsar を使用した効率的なストリーミングデータパイプラインの構築

データにおける私のキャリアエピソード 46: Cynthia Cain Fitzgerald、アンティオーク大学ビジネスインテリジェンス分析部門マネージャー – DATAVERSITY

2024 年に予想されること: ハイブリッドおよびマルチクラウドアーキテクチャの優位性 – DATAVERSITY

データにおける私のキャリアシーズン 2 エピソード 2: ジョン・ラドリー校長、ソンライ – DATAVERSITY

data.world が Snowflake と統合して新しいデータ品質メトリクスを提供 – DATAVERSITY

12 月 XNUMX 日の Data-Ed ウェビナー: データ管理のベストプラクティス – DATAVERSITY

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの データバーシティ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くのデータバーシティ