من الممكن استخراج نسخ من الصور المستخدمة لتدريب نماذج الذكاء الاصطناعي التوليدية

أعاد نشره أفلاطون

المتابعون: 0

يمكن لنماذج الذكاء الاصطناعي التوليدية حفظ الصور من بيانات التدريب الخاصة بهم ، مما قد يسمح للمستخدمين باستخراج البيانات الخاصة بحقوق الطبع والنشر ، وفقًا لما ذكره بحث.

يتم تدريب أدوات مثل DALL-E و Stable Diffusion و Midjourney على مليارات الصور المأخوذة من الإنترنت ، بما في ذلك البيانات المحمية بموجب حقوق النشر مثل الأعمال الفنية والشعارات. يتعلمون كيفية تعيين التمثيلات المرئية للأشياء والأساليب للغة الطبيعية. عندما يتم منحهم وصفًا نصيًا كمدخلات ، فإنهم ينشئون صورة تطابق التسمية التوضيحية كمخرجات.

أثارت التكنولوجيا الجديدة جدلًا قانونيًا جديدًا حول حقوق النشر: هل تنتهك هذه الأدوات حقوق الملكية الفكرية نظرًا لأنها تناولت صورًا محمية بحقوق الطبع والنشر دون إذن؟

كانت الدعاوى القضائية قدم ضد صانعي أدوات الذكاء الاصطناعي الأكثر شيوعًا لانتهاك حقوق النشر. تجادل الشركات التي تبني نماذج تحويل النص إلى صورة بأنه نظرًا لأن برامجها تنتج صورًا فريدة ، فإن استخدامها لبيانات حقوق النشر هو استخدام عادل. لكن الفنانين الذين رأوا أساليبهم وعملهم يتم تقليدها بواسطة هذه الأدوات يعتقدون أنهم تعرضوا للاختراق.

يوضح البحث الذي قاده باحثون يعملون في Google و DeepMind وجامعة كاليفورنيا وبيركلي و ETH Zurich و Princeton أنه يمكن استخراج الصور المستخدمة لتدريب هذه النماذج. تعمل نماذج الذكاء الاصطناعي التوليدية على حفظ الصور ويمكنها إنشاء نسخ دقيقة منها ، مما يثير مخاوف جديدة بشأن حقوق النشر والخصوصية.

تمكن الباحثون من استخلاص بعض الأمثلة من الصور من Stable Diffusion

قال مؤلفون مشاركون في الدراسة: "في هجوم حقيقي ، حيث يريد الخصم استخراج معلومات خاصة ، فسيخمنون التسمية أو التسمية التوضيحية التي تم استخدامها للصورة" السجل.

"لحسن حظ المهاجم ، يمكن أن تنجح طريقتنا في بعض الأحيان حتى لو لم يكن التخمين مثاليًا. على سبيل المثال ، يمكننا استخراج صورة آن جراهام لوتز بمجرد حث "الانتشار المستقر" مع اسمها ، بدلاً من التسمية التوضيحية الكاملة من مجموعة التدريب ("العيش في الضوء مع آن جراهام لوتز").

يمكن فقط استخراج الصور المحفوظة بواسطة النموذج ، ويختلف مقدار ما يمكن للنموذج أن يحفظ البيانات باختلاف عوامل مثل بيانات التدريب وحجمه. من المرجح أن يتم حفظ نسخ من نفس الصورة ، ومن المرجح أن تكون النماذج التي تحتوي على المزيد من المعلمات قادرة على تذكر الصور أيضًا.

كان الفريق قادرًا على استخراج 94 صورة من 350,000 ألف مثال تستخدم لتدريب Stable Diffusion ، و 23 صورة من 1,000 مثال من Google. صورة نموذج. للمقارنة ، يحتوي Stable Diffusion على 890 مليون معلمة وتم تدريبه على 160 مليون صورة ، بينما يحتوي Imagen على ملياري معلمة - ليس من الواضح عدد الصور التي تم استخدامها لتدريبها بالضبط.

قال الباحثون: "بالنسبة للانتشار المستقر ، وجدنا أن معظم الصور المحفوظة في الذاكرة قد تم تكرارها 100 مرة أو أكثر في مجموعة التدريب ، ولكن بعضها أقل من 10 مرات". "بالنسبة إلى نموذج Imagen من Google ، وهو نموذج أكبر من Stable Diffusion ومدرب على مجموعة بيانات أصغر ، يبدو أن الحفظ أكثر تكرارًا. هنا نجد بعض الصور الخارجية الموجودة لمرة واحدة فقط في مجموعة التدريب بأكملها ، ومع ذلك لا تزال قابلة للاستخراج ".

إنهم ليسوا متأكدين تمامًا من سبب ميل النماذج الأكبر إلى حفظ المزيد من الصور ، لكنهم يعتقدون أنه قد يكون لها علاقة بالقدرة على تخزين المزيد من بيانات التدريب الخاصة بهم في معلماتها.

معدلات الحفظ لهذه النماذج منخفضة جدًا ، وفي الواقع سيكون استخراج الصور أمرًا شاقًا وصعبًا. سيتعين على المهاجمين التخمين وتجربة العديد من المطالبات لقيادة النموذج إلى إنشاء البيانات المحفوظة. ومع ذلك ، يحذر الفريق المطورين من الامتناع عن تدريب نماذج الذكاء الاصطناعي التوليدية على البيانات الحساسة الخاصة.

مدى سوء الحفظ يعتمد على تطبيق النماذج التوليدية. في التطبيقات شديدة الخصوصية ، كما هو الحال في المجال الطبي (مثل التدريب على تصوير الصدر بالأشعة السينية أو السجلات الطبية) ، يكون الحفظ غير مرغوب فيه للغاية ، حتى لو كان يؤثر فقط على جزء صغير جدًا من المستخدمين. علاوة على ذلك ، عادةً ما تكون مجموعات التدريب المستخدمة في التطبيقات الحساسة للخصوصية أصغر من تلك المستخدمة لتدريب النماذج الفنية التوليدية الحالية. لذلك ، قد نرى الكثير من الحفظ ، بما في ذلك الصور غير المكررة ، "قالوا لنا.

تتمثل إحدى طرق منع استخراج البيانات في تقليل احتمالية الحفظ في النماذج. سيؤدي التخلص من التكرارات في مجموعة بيانات التدريب ، على سبيل المثال ، إلى تقليل فرص حفظ الصور واستخراجها. يقال إن منظمة Stability AI ، مبتكرو Stable Diffusion ، دربوا أحدث نماذجهم على مجموعة بيانات تحتوي على عدد أقل من التكرارات بشكل مستقل عن نتائج الباحثين.

الآن وقد ثبت أن نماذج تحويل النص إلى صورة يمكن أن تولد نسخًا دقيقة من الصور التي تم تدريبهم عليها ، فليس من الواضح كيف يمكن أن يؤثر ذلك على قضايا حقوق النشر.

"كانت الحجة الشائعة التي رأيناها الناس يصنعونها عبر الإنترنت هي بعض أشكال" هذه النماذج لا تحفظ بيانات التدريب أبدًا ". نحن نعلم الآن أن هذا خطأ واضح. وخلص الباحثون إلى أن ما إذا كان هذا مهمًا بالفعل أم لا في النقاش القانوني هو أيضًا موضع نقاش.

"على الأقل الآن ، لدى كلا الجانبين في هذه الدعاوى القضائية بعض الحقائق الملموسة التي يمكن الاعتماد عليها: نعم ، يحدث الحفظ ؛ لكنها نادرة جدا. ويبدو أنه يحدث بشكل أساسي مع الصور المكررة بشكل كبير ". ®

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
المصدر https://go.theregister.com/feed/www.theregister.com/2023/02/06/uh_oh_attackers_can_extract/

الطابع الزمني: 6 فبراير 2023

الطابع الزمني: ديسمبر 8،

من الممكن استخراج نسخ من الصور المستخدمة لتدريب نماذج الذكاء الاصطناعي التوليدية

أعاد نشره أفلاطون

اكثر من السجل

يمكن لبحوث التعلم الآلي في الصوتيات أن تفتح المجال متعدد الوسائط

قد يكون GitHub Copilot مثاليًا للغش في تمارين برمجة CompSci

حققت Nvidia نجاحًا كبيرًا في مجال الذكاء الاصطناعي – أين الجميع؟

يقول الخبراء إن الذكاء الاصطناعي سيساعد في إنشاء أسلحة بيولوجية في غضون 3 سنوات

واو ، لقد سمحوا بالفعل لمنظمة العفو الدولية بقيادة طائرة مقاتلة من طراز F-16

لا يزال الذكاء الاصطناعي العام حلما بعيد المنال على الرغم من ازدهار ماجستير إدارة الأعمال

المرونة السيبرانية في عصر الذكاء الاصطناعي

دور وحدة المعالجة المركزية في الذكاء الاصطناعي/التعلم الآلي المستدام

يتحدث ChatGPT طريقه من خلال امتحانات ماجستير إدارة الأعمال في وارتن ، والامتحانات الطبية

نهج مخصص لGenAI

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي