問題の核心: LLM のトレーニングにおけるコピーの謎を解く - DATAVERSITY

問題の核心: LLM のトレーニングにおけるコピーの謎を解く – DATAVERSITY

ソースノード: 3093102

過去 15 か月を振り返ると、ChatGPT の導入と一般公開に続く生成 AI と大規模言語モデル (LLM) の進歩が見出しを占めました。 

この進歩の構築要素は、Google 研究者チームが「」というタイトルの論文で概説した Transformer モデル アーキテクチャでした。注意はあなたが必要とするすべてです」タイトルが示すように、すべての Transformer モデルの重要な特徴は注意のメカニズムであり、論文では次のように定義されています。

「アテンション関数は、クエリと一連のキーと値のペアを出力にマッピングするものとして説明できます。ここで、クエリ、キー、値、出力はすべてベクトルです。出力は値の重み付けされた合計として計算され、各値に割り当てられた重みは、対応するキーとのクエリの互換性関数によって計算されます。

生成 AI モデルの特徴は、テキスト、画像、オーディオ ファイル、ビデオ ファイル、または入力の任意の組み合わせで構成されるデータ入力を大量に消費することです (このケースは通常「マルチモーダル」と呼ばれます)。著作権の観点から見ると、(多くの重要な質問の中でも) 尋ねるべき重要な質問は、トレーニング資料がファイルに保存されるかどうかです。 大規模な言語モデル (LLM) さまざまな LLM ベンダーによって作成されます。この質問に答えるためには、テキスト素材がどのように処理されるかを理解する必要があります。以下に、テキストに焦点を当てて、LLM トレーニングのまさにその側面について、技術的ではない簡単な説明を示します。 

人間は単語を順番に並べることによって自然言語でコミュニケーションをとります。単語の順序や特定の形式に関する規則は、特定の言語 (英語など) によって決まります。テキストを処理するすべてのソフトウェア システム (したがって、処理するすべての AI システム) のアーキテクチャの重要な部分は、システムの機能が最も効率的に実行できるようにテキストを表現する方法です。したがって、言語モデルにおけるテキスト入力の処理における重要なステップは、ユーザー入力を AI システムが理解できる特別な「単語」に分割することです。それらの特別な単語は「トークン」と呼ばれます。それを担当するコンポーネントは「トークナイザー」と呼ばれます。トークナイザーには多くの種類があります。たとえば、OpenAI と Azure OpenAI は、Generative Pretrained Transformer (GPT) ベースのモデルに「Byte-Pair Encoding (BPE)」と呼ばれるサブワード トークン化方法を使用しています。 BPE は、特定のトークン数または語彙サイズに達するまで、最も頻繁に発生する文字またはバイトのペアを 1 つのトークンにマージする方法です。語彙サイズが大きいほど、モデルが生成できるテキストはより多様で表現力豊かになります。

AI システムは入力テキストをトークンにマッピングすると、トークンを数値にエンコードし、処理したシーケンスを「単語埋め込み」と呼ばれるベクトルに変換します。ベクトルは順序付けられた数値の集合であり、テーブル内の行または列と考えることができます。これらのベクトルは、テキストとして与えられた元の自然言語表現を保存するトークンの表現です。著作権に関しては、単語の埋め込みの役割を理解することが重要です。埋め込みは文全体、さらには段落の表現 (またはエンコード) を形成し、したがってベクトルの組み合わせでは、高次元ベクトル空間内の文書全体も形成するからです。 AI システムはこれらの埋め込みを通じて、自然言語から単語の意味と関係を取得して保存します。 

埋め込みは、生成 AI システムが実行するほぼすべてのタスク (テキスト生成、テキスト要約、テキスト分類、テキスト翻訳、画像生成、コード生成など) で使用されます。通常、Word 埋め込みはベクトル データベースに保存されますが、使用されているベンダー、プロセス、実践方法が多種多様であるため、保存に対するすべてのアプローチの詳細な説明はこの投稿の範囲を超えています。

前述したように、ほとんどすべての LLM は、アテンション メカニズムを呼び出す Transformer アーキテクチャに基づいています。後者により、AI テクノロジーは、単なる文字のシーケンスとしてではなく、文全体、さらには段落を全体として表示できるようになります。これにより、ソフトウェアは単語が出現する可能性のあるさまざまなコンテキストをキャプチャできるようになります。これらのコンテキストは、著作権で保護された作品を含むトレーニングで使用される作品によって提供されるため、恣意的なものではありません。このようにして、言葉の本来の使用法、原作の表現が AI システムに保存されます。それは複製および分析が可能であり、新しい表現の基礎を形成することができます (特定の状況によっては、著作権用語で「二次的著作物」として特徴付けられる場合があります)。 

LLM は、トレーニングされた元の作品の表現を保持します。彼らは専用のベクトル空間でテキストの内部表現を形成し、トリガーとして適切な入力が与えられると、トレーニングで使用されたオリジナルの作品を再現できます。 AI システムは、ベースとなる LLM のトレーニングに使用される、著作権で保護されたコンテンツを含むコンテンツから永続的な利益を引き出します。 LLM は、元の作品の単語の表現に基づいて単語の文脈を認識します。そして、このコンテキストは、トレーニングで使用される数千、または数百万の著作物にわたって AI システムに累積的に利益をもたらします。これらのオリジナルの作品は、著作権で保護された作品のベクトル (元の自然言語表現を保存するトークンのベクトル空間表現) に保存されているため、AI システムによって再作成できます。著作権の観点から見ると、トレーニング資料が LLM に保存されるかどうかを判断することが問題の中心であり、その質問に対する答えが「はい」であることは明らかです。

タイムスタンプ:

より多くの データバーシティ