過去 15 か月を振り返ると、ChatGPT の導入と一般公開に続く生成 AI と大規模言語モデル (LLM) の進歩が見出しを占めました。
この進歩の構築要素は、Google 研究者チームが「」というタイトルの論文で概説した Transformer モデル アーキテクチャでした。注意はあなたが必要とするすべてです」タイトルが示すように、すべての Transformer モデルの重要な特徴は注意のメカニズムであり、論文では次のように定義されています。
「アテンション関数は、クエリと一連のキーと値のペアを出力にマッピングするものとして説明できます。ここで、クエリ、キー、値、出力はすべてベクトルです。出力は値の重み付けされた合計として計算され、各値に割り当てられた重みは、対応するキーとのクエリの互換性関数によって計算されます。
生成 AI モデルの特徴は、テキスト、画像、オーディオ ファイル、ビデオ ファイル、または入力の任意の組み合わせで構成されるデータ入力を大量に消費することです (このケースは通常「マルチモーダル」と呼ばれます)。著作権の観点から見ると、(多くの重要な質問の中でも) 尋ねるべき重要な質問は、トレーニング資料がファイルに保存されるかどうかです。 大規模な言語モデル (LLM) さまざまな LLM ベンダーによって作成されます。この質問に答えるためには、テキスト素材がどのように処理されるかを理解する必要があります。以下に、テキストに焦点を当てて、LLM トレーニングのまさにその側面について、技術的ではない簡単な説明を示します。
人間は単語を順番に並べることによって自然言語でコミュニケーションをとります。単語の順序や特定の形式に関する規則は、特定の言語 (英語など) によって決まります。テキストを処理するすべてのソフトウェア システム (したがって、処理するすべての AI システム) のアーキテクチャの重要な部分は、システムの機能が最も効率的に実行できるようにテキストを表現する方法です。したがって、言語モデルにおけるテキスト入力の処理における重要なステップは、ユーザー入力を AI システムが理解できる特別な「単語」に分割することです。それらの特別な単語は「トークン」と呼ばれます。それを担当するコンポーネントは「トークナイザー」と呼ばれます。トークナイザーには多くの種類があります。たとえば、OpenAI と Azure OpenAI は、Generative Pretrained Transformer (GPT) ベースのモデルに「Byte-Pair Encoding (BPE)」と呼ばれるサブワード トークン化方法を使用しています。 BPE は、特定のトークン数または語彙サイズに達するまで、最も頻繁に発生する文字またはバイトのペアを 1 つのトークンにマージする方法です。語彙サイズが大きいほど、モデルが生成できるテキストはより多様で表現力豊かになります。
AI システムは入力テキストをトークンにマッピングすると、トークンを数値にエンコードし、処理したシーケンスを「単語埋め込み」と呼ばれるベクトルに変換します。ベクトルは順序付けられた数値の集合であり、テーブル内の行または列と考えることができます。これらのベクトルは、テキストとして与えられた元の自然言語表現を保存するトークンの表現です。著作権に関しては、単語の埋め込みの役割を理解することが重要です。埋め込みは文全体、さらには段落の表現 (またはエンコード) を形成し、したがってベクトルの組み合わせでは、高次元ベクトル空間内の文書全体も形成するからです。 AI システムはこれらの埋め込みを通じて、自然言語から単語の意味と関係を取得して保存します。
埋め込みは、生成 AI システムが実行するほぼすべてのタスク (テキスト生成、テキスト要約、テキスト分類、テキスト翻訳、画像生成、コード生成など) で使用されます。通常、Word 埋め込みはベクトル データベースに保存されますが、使用されているベンダー、プロセス、実践方法が多種多様であるため、保存に対するすべてのアプローチの詳細な説明はこの投稿の範囲を超えています。
前述したように、ほとんどすべての LLM は、アテンション メカニズムを呼び出す Transformer アーキテクチャに基づいています。後者により、AI テクノロジーは、単なる文字のシーケンスとしてではなく、文全体、さらには段落を全体として表示できるようになります。これにより、ソフトウェアは単語が出現する可能性のあるさまざまなコンテキストをキャプチャできるようになります。これらのコンテキストは、著作権で保護された作品を含むトレーニングで使用される作品によって提供されるため、恣意的なものではありません。このようにして、言葉の本来の使用法、原作の表現が AI システムに保存されます。それは複製および分析が可能であり、新しい表現の基礎を形成することができます (特定の状況によっては、著作権用語で「二次的著作物」として特徴付けられる場合があります)。
LLM は、トレーニングされた元の作品の表現を保持します。彼らは専用のベクトル空間でテキストの内部表現を形成し、トリガーとして適切な入力が与えられると、トレーニングで使用されたオリジナルの作品を再現できます。 AI システムは、ベースとなる LLM のトレーニングに使用される、著作権で保護されたコンテンツを含むコンテンツから永続的な利益を引き出します。 LLM は、元の作品の単語の表現に基づいて単語の文脈を認識します。そして、このコンテキストは、トレーニングで使用される数千、または数百万の著作物にわたって AI システムに累積的に利益をもたらします。これらのオリジナルの作品は、著作権で保護された作品のベクトル (元の自然言語表現を保存するトークンのベクトル空間表現) に保存されているため、AI システムによって再作成できます。著作権の観点から見ると、トレーニング資料が LLM に保存されるかどうかを判断することが問題の中心であり、その質問に対する答えが「はい」であることは明らかです。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/
- :持っている
- :は
- :not
- :どこ
- 視聴者の38%が
- a
- 私たちについて
- 越えて
- Ad
- AI
- AIモデル
- AIシステム
- すべて
- ことができます
- ほとんど
- an
- 分析
- および
- 回答
- どれか
- アプローチ
- 適切な
- 任意
- 建築
- です
- AS
- 頼む
- 側面
- 割り当てられた
- At
- 注意
- オーディオ
- 賃貸条件の詳細・契約費用のお見積り等について
- Azure
- ベース
- 基礎
- BE
- なぜなら
- き
- 利点
- 越えて
- ブロック
- 建物
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 呼ばれます
- 缶
- キャプチャー
- キャプチャ
- 場合
- 一定
- 特性
- 特徴付けられた
- 文字
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- 状況
- 分類
- クリア
- コード
- コラム
- 組み合わせ
- 組み合わせ
- 来ます
- 伝える
- 互換性
- コンポーネント
- 計算済み
- 消費
- コンテンツ
- コンテキスト
- 文脈
- 複写
- 著作権
- 対応する
- 可能性
- データ
- データベースを追加しました
- データバーシティ
- 定義済みの
- によっては
- 派生する
- 記載された
- 説明
- 詳細な
- 決定
- 口述
- 異なる
- DM
- do
- ドキュメント
- 優勢
- e
- 各
- 効率良く
- エンコーディング
- 英語
- 全体
- と題する
- 本質的な
- エーテル(ETH)
- さらに
- イベント
- あらゆる
- 正確に
- 例
- 表現
- 表現
- 表現力豊かな
- 特徴
- 焦点
- フォロー中
- 次
- フォーム
- 頻繁に
- から
- function
- 機能
- 生成する
- 世代
- 生々しい
- 生成AI
- 与えられた
- でログイン
- 持ってる
- ヘッドライン
- ハート
- 助けます
- 認定条件
- How To
- HTTPS
- 画像
- 画像生成
- 画像
- 重要
- in
- 含めて
- 入力
- 内部
- に
- 概要
- 呼び出す
- IT
- キー
- キー
- 言語
- 大
- より大きい
- LLM
- 製
- 多くの
- マッピング
- 大規模な
- 材料
- 問題
- 五月..
- 意味
- メカニズム
- 言及した
- 単なる
- マージ
- 方法
- 何百万
- モデル
- ヶ月
- 他には?
- 最も
- ナチュラル
- 自然言語
- 必要
- NeurIPS
- 新作
- ニュースレター
- 非技術的な
- 数
- 番号
- 発生する
- 発生する
- of
- on
- OpenAI
- or
- オリジナル
- 概説
- 出力
- 足
- 紙素材
- 部
- 過去
- 実行
- 実行する
- パーペチュアル
- 視点
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポスト
- 事実上
- プラクティス
- 保存された
- プロセス
- 処理されました
- ラボレーション
- 処理
- 生産された
- 進捗
- 提供
- 公共
- クエリー
- 質問
- 質問
- むしろ
- 達した
- 認識する
- 言及
- の関係
- 表す
- 表現
- 研究者
- 責任
- リテンションを維持
- 保持された
- 職種
- 行
- ルール
- スコープ
- シーケンシング
- セッションに
- サイズ
- So
- ソフトウェア
- スペース
- スペース
- 特別
- 特定の
- 手順
- ストレージ利用料
- 保存され
- 店舗
- 提案する
- 合計
- システム
- テーブル
- 仕事
- チーム
- テクノロジー
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- テキスト分類
- テキスト生成
- テキスト
- より
- それ
- アプリ環境に合わせて
- そこ。
- したがって、
- ボーマン
- 彼ら
- 考える
- この
- それらの
- 数千
- 介して
- 役職
- 〜へ
- トークン
- トークン化
- トークン
- トレーニング
- 訓練された
- トレーニング
- トランス
- インタビュー
- トリガー
- わかる
- まで
- に
- つかいます
- 中古
- ユーザー
- 通常
- 値
- 価値観
- 多様
- さまざまな
- ベンダー
- ビデオ
- 詳しく見る
- 閲覧
- ました
- 仕方..
- we
- weekly
- 重量
- した
- この試験は
- いつ
- かどうか
- which
- 全体
- ワイド
- 以内
- Word
- 言葉
- 仕事
- 作品
- はい
- 貴社
- ゼファーネット