ジェネレーティブ AI モデルのトレーニングに使用される画像のコピーを抽出することが可能

ジェネレーティブ AI モデルのトレーニングに使用される画像のコピーを抽出することが可能

ソースノード: 1942543

ジェネレーティブ AI モデルはトレーニング データから画像を記憶できるため、ユーザーは著作権で保護されたプライベート データを抽出できる可能性があります。 研究.

DALL-E、Stable Diffusion、Midjourney などのツールは、アートワークやロゴなどの著作権で保護されたデータを含む、インターネットからスクレイピングされた数十億の画像でトレーニングされています。 オブジェクトやスタイルの視覚的表現を自然言語にマッピングすることを学びます。 入力としてテキストの説明が与えられると、キャプションに一致する画像を出力として生成します。

この新しい技術は、著作権に関する新たな法的な議論を巻き起こしました。これらのツールは、著作権で保護された画像を許可なく摂取したため、知的財産権を侵害しているのでしょうか?

訴訟は 提出 著作権を侵害する最も人気のあるジェネレーティブ AI ツールのメーカーに対して。 テキストから画像へのモデルを構築している企業は、自社のソフトウェアが独自の画像を生成するため、著作権データの使用はフェアユースであると主張しています。 しかし、これらのツールによって自分のスタイルや作品が模倣されているのを見たアーティストは、だまされたと信じています。

現在、Google、DeepMind、カリフォルニア大学バークレー校、ETH チューリッヒ、プリンストン大学の研究者が主導する研究により、これらのモデルのトレーニングに使用される画像を抽出できることが実証されています。 ジェネレーティブ AI モデルは画像を記憶し、それらの正確なコピーを生成できるため、著作権とプライバシーに関する新たな懸念が生じます。

拡散抽出研究

研究者が Stable Diffusion から抽出した画像の例

「攻撃者が個人情報を抽出しようとする実際の攻撃では、画像に使用されたラベルまたはキャプションを推測するでしょう」と研究の共著者は語った。 登録.

「攻撃者にとって幸いなことに、推測が完全でなくても、私たちの方法が機能する場合があります。 たとえば、トレーニング セットの完全なキャプション (「Living in the light with Ann Graham Lotz」) の代わりに、Stable Diffusion に彼女の名前を入力するだけで、Ann Graham Lotz の肖像画を抽出できます。

拡散抽出研究_2

モデルが記憶した画像のみを抽出することができ、モデルがデータを記憶できる量は、トレーニング データやサイズなどの要因によって異なります。 同じ画像のコピーは記憶される可能性が高く、より多くのパラメーターを含むモデルは画像も記憶できる可能性が高くなります。

チームは、Stable Diffusion のトレーニングに使用された 94 のサンプルから 350,000 の画像を抽出し、Google の 23 のサンプルから 1,000 の画像を抽出することができました。 画像 モデル。 比較のために、Stable Diffusion には 890 億 160 万のパラメーターがあり、XNUMX 億 XNUMX 万の画像でトレーニングされましたが、Imagen には XNUMX 億のパラメーターがあります。正確にトレーニングするために使用された画像の数は明らかではありません。

「Stable Diffusion の場合、記憶された画像のほとんどがトレーニング セットで 100 回以上複製されたことがわかりましたが、中には 10 回ほどしか複製されなかったものもあります」と研究者は述べています。 「Stable Diffusion よりも大きなモデルであり、小さなデータセットでトレーニングされた Google の Imagen モデルの場合、記憶ははるかに頻繁に行われるようです。 ここでは、トレーニング セット全体で XNUMX 回だけ存在するが、まだ抽出可能な外れ値の画像がいくつか見つかります。」

大きなモデルがより多くの画像を記憶する傾向がある理由はよくわかっていませんが、パラメータにより多くのトレーニング データを保存できることに関係があるのではないかと考えています。

これらのモデルの記憶率はかなり低く、実際には画像を抽出するのは面倒で注意が必要です。 攻撃者は、モデルを記憶データの生成に導くために、多数のプロンプトを推測して試行する必要があります。 それでも、チームは開発者に対し、個人の機密データで生成 AI モデルをトレーニングすることを控えるよう警告しています。

「暗記がどれほど悪いかは、生成モデルの適用に依存します。 医療分野 (胸部 X 線や医療記録のトレーニングなど) などの非常にプライベートなアプリケーションでは、ごく一部のユーザーにしか影響しないとしても、記憶は非常に望ましくありません。 さらに、プライバシーに配慮したアプリケーションで使用されるトレーニング セットは、通常、現在のジェネレーティブ アート モデルのトレーニングに使用されるものよりも小さいものです。 したがって、複製されていない画像を含め、より多くの記憶が見られる可能性があります」と彼らは私たちに語った.

データ抽出を防ぐ XNUMX つの方法は、モデルの記憶の可能性を減らすことです。 たとえば、トレーニング データセット内の重複を取り除くと、画像が記憶されて抽出される可能性が最小限に抑えられます。 Stable Diffusion の作成者である Stability AI は、研究者の調査結果とは関係なく、重複が少ないデータセットで最新のモデルをトレーニングしたと報告されています。

テキストから画像へのモデルが、トレーニングされた画像の正確なコピーを生成できることが証明された今、これが著作権のケースにどのように影響するかは明らかではありません.

「人々がオンラインで行っている一般的な議論は、『これらのモデルはトレーニング データを決して記憶しない』というものでした。 これは明らかに間違っていることがわかりました。 しかし、これが法的な議論で実際に問題になるかどうかも議論の余地があります」と研究者は結論付けました.

「少なくとも今、これらの訴訟の双方には、信頼できる具体的な事実があります。はい、記憶は起こります。 しかし、それは非常にまれです。 これは主に、重複度の高い画像で発生するようです。」 ®

タイムスタンプ:

より多くの 登録