ジェネレーティブ AI モデルはトレーニング データから画像を記憶できるため、ユーザーは著作権で保護されたプライベート データを抽出できる可能性があります。 研究.
DALL-E、Stable Diffusion、Midjourney などのツールは、アートワークやロゴなどの著作権で保護されたデータを含む、インターネットからスクレイピングされた数十億の画像でトレーニングされています。 オブジェクトやスタイルの視覚的表現を自然言語にマッピングすることを学びます。 入力としてテキストの説明が与えられると、キャプションに一致する画像を出力として生成します。
この新しい技術は、著作権に関する新たな法的な議論を巻き起こしました。これらのツールは、著作権で保護された画像を許可なく摂取したため、知的財産権を侵害しているのでしょうか?
訴訟は 提出 著作権を侵害する最も人気のあるジェネレーティブ AI ツールのメーカーに対して。 テキストから画像へのモデルを構築している企業は、自社のソフトウェアが独自の画像を生成するため、著作権データの使用はフェアユースであると主張しています。 しかし、これらのツールによって自分のスタイルや作品が模倣されているのを見たアーティストは、だまされたと信じています。
現在、Google、DeepMind、カリフォルニア大学バークレー校、ETH チューリッヒ、プリンストン大学の研究者が主導する研究により、これらのモデルのトレーニングに使用される画像を抽出できることが実証されています。 ジェネレーティブ AI モデルは画像を記憶し、それらの正確なコピーを生成できるため、著作権とプライバシーに関する新たな懸念が生じます。
研究者が Stable Diffusion から抽出した画像の例
「攻撃者が個人情報を抽出しようとする実際の攻撃では、画像に使用されたラベルまたはキャプションを推測するでしょう」と研究の共著者は語った。 登録.
「攻撃者にとって幸いなことに、推測が完全でなくても、私たちの方法が機能する場合があります。 たとえば、トレーニング セットの完全なキャプション (「Living in the light with Ann Graham Lotz」) の代わりに、Stable Diffusion に彼女の名前を入力するだけで、Ann Graham Lotz の肖像画を抽出できます。
モデルが記憶した画像のみを抽出することができ、モデルがデータを記憶できる量は、トレーニング データやサイズなどの要因によって異なります。 同じ画像のコピーは記憶される可能性が高く、より多くのパラメーターを含むモデルは画像も記憶できる可能性が高くなります。
チームは、Stable Diffusion のトレーニングに使用された 94 のサンプルから 350,000 の画像を抽出し、Google の 23 のサンプルから 1,000 の画像を抽出することができました。 画像 モデル。 比較のために、Stable Diffusion には 890 億 160 万のパラメーターがあり、XNUMX 億 XNUMX 万の画像でトレーニングされましたが、Imagen には XNUMX 億のパラメーターがあります。正確にトレーニングするために使用された画像の数は明らかではありません。
「Stable Diffusion の場合、記憶された画像のほとんどがトレーニング セットで 100 回以上複製されたことがわかりましたが、中には 10 回ほどしか複製されなかったものもあります」と研究者は述べています。 「Stable Diffusion よりも大きなモデルであり、小さなデータセットでトレーニングされた Google の Imagen モデルの場合、記憶ははるかに頻繁に行われるようです。 ここでは、トレーニング セット全体で XNUMX 回だけ存在するが、まだ抽出可能な外れ値の画像がいくつか見つかります。」
大きなモデルがより多くの画像を記憶する傾向がある理由はよくわかっていませんが、パラメータにより多くのトレーニング データを保存できることに関係があるのではないかと考えています。
これらのモデルの記憶率はかなり低く、実際には画像を抽出するのは面倒で注意が必要です。 攻撃者は、モデルを記憶データの生成に導くために、多数のプロンプトを推測して試行する必要があります。 それでも、チームは開発者に対し、個人の機密データで生成 AI モデルをトレーニングすることを控えるよう警告しています。
「暗記がどれほど悪いかは、生成モデルの適用に依存します。 医療分野 (胸部 X 線や医療記録のトレーニングなど) などの非常にプライベートなアプリケーションでは、ごく一部のユーザーにしか影響しないとしても、記憶は非常に望ましくありません。 さらに、プライバシーに配慮したアプリケーションで使用されるトレーニング セットは、通常、現在のジェネレーティブ アート モデルのトレーニングに使用されるものよりも小さいものです。 したがって、複製されていない画像を含め、より多くの記憶が見られる可能性があります」と彼らは私たちに語った.
データ抽出を防ぐ XNUMX つの方法は、モデルの記憶の可能性を減らすことです。 たとえば、トレーニング データセット内の重複を取り除くと、画像が記憶されて抽出される可能性が最小限に抑えられます。 Stable Diffusion の作成者である Stability AI は、研究者の調査結果とは関係なく、重複が少ないデータセットで最新のモデルをトレーニングしたと報告されています。
テキストから画像へのモデルが、トレーニングされた画像の正確なコピーを生成できることが証明された今、これが著作権のケースにどのように影響するかは明らかではありません.
「人々がオンラインで行っている一般的な議論は、『これらのモデルはトレーニング データを決して記憶しない』というものでした。 これは明らかに間違っていることがわかりました。 しかし、これが法的な議論で実際に問題になるかどうかも議論の余地があります」と研究者は結論付けました.
「少なくとも今、これらの訴訟の双方には、信頼できる具体的な事実があります。はい、記憶は起こります。 しかし、それは非常にまれです。 これは主に、重複度の高い画像で発生するようです。」 ®
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://go.theregister.com/feed/www.theregister.com/2023/02/06/uh_oh_attackers_can_extract/
- 000
- 1
- 10
- 100
- a
- できる
- 従った
- 実際に
- に対して
- AI
- 許可
- &
- 申し込み
- 主張する
- 引数
- 宝品
- Artists
- 芸術作品
- 攻撃
- 悪い
- さ
- 信じる
- バークリー
- 10億
- 億
- 国境
- 両側
- 建物
- カリフォルニア州
- 例
- センター
- チャンス
- クリア
- はっきりと
- コマンドと
- 企業
- 比較
- 懸念事項
- 終了する
- コピー
- 著作権
- 可能性
- クリエイター
- 電流プローブ
- ドール
- データ
- 議論
- 減少
- ディープマインド
- 依存
- 説明
- 開発者
- ドメイン
- 複製
- 全体
- ETH
- スイス連邦工科大学チューリッヒ校
- エーテル(ETH)
- さらに
- 正確に
- 例
- 例
- エキス
- 抽出
- 要因
- フェア
- 少数の
- もう完成させ、ワークスペースに掲示しましたか?
- 幸いにも
- 分数
- 頻繁な
- 新鮮な
- から
- フル
- さらに
- 生成する
- 生成
- 生成
- 生々しい
- 生成AI
- 受け
- 与えられた
- でログイン
- 起こる
- 起こります
- こちら
- 非常に
- 認定条件
- HTTPS
- 画像
- 画像
- 影響
- in
- 含めて
- 単独で
- 情報
- を取得する必要がある者
- 知的
- 知的財産
- インターネット
- IT
- 知っている
- ラベル
- 言語
- より大きい
- 訴訟
- つながる
- LEARN
- ツェッペリン
- リーガルポリシー
- 光
- 可能性が高い
- 生活
- たくさん
- ロー
- make
- メーカー
- マネージド
- 多くの
- 地図
- マッチング
- 事態
- 医療の
- 方法
- ミッドジャーニー
- かもしれない
- 百万
- モデル
- 他には?
- 最も
- 一番人気
- 名
- ナチュラル
- 自然言語
- 新作
- 最新
- 多数の
- オブジェクト
- オンライン
- パラメータ
- のワークプ
- 完璧
- 許可
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 人気
- 肖像
- 可能
- 現在
- かなり
- 防ぐ
- プリンストン
- プライバシー
- プライベート
- 個人情報
- 財産
- 財産権
- 保護された
- 実績のある
- 調達
- 珍しい
- 価格表
- RE
- リアル
- 現実
- 記録
- 覚えています
- 研究
- 研究者
- 取り除きます
- 権利
- 引き裂かれました
- 前記
- 同じ
- と思われる
- 敏感な
- セッションに
- セット
- 側面
- から
- サイズ
- 小さい
- より小さい
- ソフトウェア
- 一部
- 何か
- 安定性
- 安定した
- まだ
- 店舗
- 勉強
- そのような
- チーム
- テクノロジー
- アプリ環境に合わせて
- したがって、
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- あまりに
- 豊富なツール群
- トレーニング
- 訓練された
- トレーニング
- ユニーク
- 大学
- カリフォルニア大学
- us
- つかいます
- users
- 通常
- バリアント
- Ve
- 警告
- かどうか
- which
- while
- 誰
- 無し
- 仕事
- ワーキング
- でしょう
- ゼファーネット
- チューリッヒ