يمكن لنماذج الذكاء الاصطناعي التوليدية حفظ الصور من بيانات التدريب الخاصة بهم ، مما قد يسمح للمستخدمين باستخراج البيانات الخاصة بحقوق الطبع والنشر ، وفقًا لما ذكره بحث.
يتم تدريب أدوات مثل DALL-E و Stable Diffusion و Midjourney على مليارات الصور المأخوذة من الإنترنت ، بما في ذلك البيانات المحمية بموجب حقوق النشر مثل الأعمال الفنية والشعارات. يتعلمون كيفية تعيين التمثيلات المرئية للأشياء والأساليب للغة الطبيعية. عندما يتم منحهم وصفًا نصيًا كمدخلات ، فإنهم ينشئون صورة تطابق التسمية التوضيحية كمخرجات.
أثارت التكنولوجيا الجديدة جدلًا قانونيًا جديدًا حول حقوق النشر: هل تنتهك هذه الأدوات حقوق الملكية الفكرية نظرًا لأنها تناولت صورًا محمية بحقوق الطبع والنشر دون إذن؟
كانت الدعاوى القضائية قدم ضد صانعي أدوات الذكاء الاصطناعي الأكثر شيوعًا لانتهاك حقوق النشر. تجادل الشركات التي تبني نماذج تحويل النص إلى صورة بأنه نظرًا لأن برامجها تنتج صورًا فريدة ، فإن استخدامها لبيانات حقوق النشر هو استخدام عادل. لكن الفنانين الذين رأوا أساليبهم وعملهم يتم تقليدها بواسطة هذه الأدوات يعتقدون أنهم تعرضوا للاختراق.
يوضح البحث الذي قاده باحثون يعملون في Google و DeepMind وجامعة كاليفورنيا وبيركلي و ETH Zurich و Princeton أنه يمكن استخراج الصور المستخدمة لتدريب هذه النماذج. تعمل نماذج الذكاء الاصطناعي التوليدية على حفظ الصور ويمكنها إنشاء نسخ دقيقة منها ، مما يثير مخاوف جديدة بشأن حقوق النشر والخصوصية.
تمكن الباحثون من استخلاص بعض الأمثلة من الصور من Stable Diffusion
قال مؤلفون مشاركون في الدراسة: "في هجوم حقيقي ، حيث يريد الخصم استخراج معلومات خاصة ، فسيخمنون التسمية أو التسمية التوضيحية التي تم استخدامها للصورة" السجل.
"لحسن حظ المهاجم ، يمكن أن تنجح طريقتنا في بعض الأحيان حتى لو لم يكن التخمين مثاليًا. على سبيل المثال ، يمكننا استخراج صورة آن جراهام لوتز بمجرد حث "الانتشار المستقر" مع اسمها ، بدلاً من التسمية التوضيحية الكاملة من مجموعة التدريب ("العيش في الضوء مع آن جراهام لوتز").
يمكن فقط استخراج الصور المحفوظة بواسطة النموذج ، ويختلف مقدار ما يمكن للنموذج أن يحفظ البيانات باختلاف عوامل مثل بيانات التدريب وحجمه. من المرجح أن يتم حفظ نسخ من نفس الصورة ، ومن المرجح أن تكون النماذج التي تحتوي على المزيد من المعلمات قادرة على تذكر الصور أيضًا.
كان الفريق قادرًا على استخراج 94 صورة من 350,000 ألف مثال تستخدم لتدريب Stable Diffusion ، و 23 صورة من 1,000 مثال من Google. صورة نموذج. للمقارنة ، يحتوي Stable Diffusion على 890 مليون معلمة وتم تدريبه على 160 مليون صورة ، بينما يحتوي Imagen على ملياري معلمة - ليس من الواضح عدد الصور التي تم استخدامها لتدريبها بالضبط.
قال الباحثون: "بالنسبة للانتشار المستقر ، وجدنا أن معظم الصور المحفوظة في الذاكرة قد تم تكرارها 100 مرة أو أكثر في مجموعة التدريب ، ولكن بعضها أقل من 10 مرات". "بالنسبة إلى نموذج Imagen من Google ، وهو نموذج أكبر من Stable Diffusion ومدرب على مجموعة بيانات أصغر ، يبدو أن الحفظ أكثر تكرارًا. هنا نجد بعض الصور الخارجية الموجودة لمرة واحدة فقط في مجموعة التدريب بأكملها ، ومع ذلك لا تزال قابلة للاستخراج ".
إنهم ليسوا متأكدين تمامًا من سبب ميل النماذج الأكبر إلى حفظ المزيد من الصور ، لكنهم يعتقدون أنه قد يكون لها علاقة بالقدرة على تخزين المزيد من بيانات التدريب الخاصة بهم في معلماتها.
معدلات الحفظ لهذه النماذج منخفضة جدًا ، وفي الواقع سيكون استخراج الصور أمرًا شاقًا وصعبًا. سيتعين على المهاجمين التخمين وتجربة العديد من المطالبات لقيادة النموذج إلى إنشاء البيانات المحفوظة. ومع ذلك ، يحذر الفريق المطورين من الامتناع عن تدريب نماذج الذكاء الاصطناعي التوليدية على البيانات الحساسة الخاصة.
مدى سوء الحفظ يعتمد على تطبيق النماذج التوليدية. في التطبيقات شديدة الخصوصية ، كما هو الحال في المجال الطبي (مثل التدريب على تصوير الصدر بالأشعة السينية أو السجلات الطبية) ، يكون الحفظ غير مرغوب فيه للغاية ، حتى لو كان يؤثر فقط على جزء صغير جدًا من المستخدمين. علاوة على ذلك ، عادةً ما تكون مجموعات التدريب المستخدمة في التطبيقات الحساسة للخصوصية أصغر من تلك المستخدمة لتدريب النماذج الفنية التوليدية الحالية. لذلك ، قد نرى الكثير من الحفظ ، بما في ذلك الصور غير المكررة ، "قالوا لنا.
تتمثل إحدى طرق منع استخراج البيانات في تقليل احتمالية الحفظ في النماذج. سيؤدي التخلص من التكرارات في مجموعة بيانات التدريب ، على سبيل المثال ، إلى تقليل فرص حفظ الصور واستخراجها. يقال إن منظمة Stability AI ، مبتكرو Stable Diffusion ، دربوا أحدث نماذجهم على مجموعة بيانات تحتوي على عدد أقل من التكرارات بشكل مستقل عن نتائج الباحثين.
الآن وقد ثبت أن نماذج تحويل النص إلى صورة يمكن أن تولد نسخًا دقيقة من الصور التي تم تدريبهم عليها ، فليس من الواضح كيف يمكن أن يؤثر ذلك على قضايا حقوق النشر.
"كانت الحجة الشائعة التي رأيناها الناس يصنعونها عبر الإنترنت هي بعض أشكال" هذه النماذج لا تحفظ بيانات التدريب أبدًا ". نحن نعلم الآن أن هذا خطأ واضح. وخلص الباحثون إلى أن ما إذا كان هذا مهمًا بالفعل أم لا في النقاش القانوني هو أيضًا موضع نقاش.
"على الأقل الآن ، لدى كلا الجانبين في هذه الدعاوى القضائية بعض الحقائق الملموسة التي يمكن الاعتماد عليها: نعم ، يحدث الحفظ ؛ لكنها نادرة جدا. ويبدو أنه يحدث بشكل أساسي مع الصور المكررة بشكل كبير ". ®
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
- المصدر https://go.theregister.com/feed/www.theregister.com/2023/02/06/uh_oh_attackers_can_extract/
- 000
- 1
- 10
- 100
- a
- ماهرون
- وفقا
- في الواقع
- ضد
- AI
- السماح
- و
- تطبيق
- التطبيقات
- تجادل
- حجة
- فنـون
- الفنانين
- العمل الفني
- مهاجمة
- سيئة
- يجري
- اعتقد
- بيركلي
- مليار
- المليارات
- الحدود
- كلا الجانبين
- ابني
- كاليفورنيا
- الحالات
- مركز
- فرص
- واضح
- بوضوح
- مشترك
- الشركات
- مقارنة
- اهتمامات
- وخلص
- نسخ
- حقوق الطبع والنشر
- استطاع
- المبدعين
- حالياًّ
- دال
- البيانات
- مناقشة
- تخفيض
- العقل العميق
- يعتمد
- وصف
- المطورين
- التوزيع
- نطاق
- التكرارات
- كامل
- ETH
- ETH زيورخ
- الأثير (ETH)
- حتى
- بالضبط
- مثال
- أمثلة
- استخراج
- استخلاص
- العوامل
- عادل
- قليل
- لحسن الحظ
- جزء
- متكرر
- جديد
- تبدأ من
- بالإضافة إلى
- علاوة على ذلك
- توليد
- يولد
- توليد
- توليدي
- الذكاء الاصطناعي التوليدي
- الحصول على
- معطى
- شراء مراجعات جوجل
- يحدث
- يحدث
- هنا
- جدا
- كيفية
- HTTPS
- صورة
- صور
- التأثير
- in
- بما فيه
- بشكل مستقل
- معلومات
- إدخال
- بدلًا من ذلك
- فكري
- الملكية الفكرية
- Internet
- IT
- علم
- تُشير
- لغة
- أكبر
- الدعاوى القضائية
- قيادة
- تعلم
- ليد
- شروط وأحكام
- ضوء
- على الأرجح
- الذين يعيشون
- الكثير
- منخفض
- جعل
- صناع
- تمكن
- كثير
- رسم خريطة
- مطابقة
- المسائل
- طبي
- طريقة
- ميدجورني
- ربما
- مليون
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- أكثر
- الاكثر شهره
- الاسم
- طبيعي
- اللغة الطبيعية
- جديد
- الأحدث
- كثير
- الأجسام
- online
- المعلمات
- مجتمع
- إذن
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- أكثر الاستفسارات
- صورة
- ممكن
- يقدم
- جميل
- منع
- برينستون
- خصوصية
- خاص
- معلومات خاصة
- الملكية
- حقوق الملكية
- محمي
- ثبت
- رفع
- نادر
- الأجور
- RE
- حقيقي
- واقع
- تسجيل
- تذكر
- بحث
- الباحثين
- تخلص من
- حقوق
- ممزق
- قال
- نفسه
- يبدو
- حساس
- طقم
- باكجات
- أصناف جانبية
- منذ
- عزباء
- مقاس
- صغير
- الأصغر
- تطبيقات الكمبيوتر
- بعض
- شيء
- استقرار
- مستقر
- لا يزال
- متجر
- دراسة
- هذه
- فريق
- تكنولوجيا
- •
- من مشاركة
- وبالتالي
- الوقت
- مرات
- إلى
- جدا
- أدوات
- قطار
- متدرب
- قادة الإيمان
- فريد من نوعه
- جامعة
- جامعة كاليفورنيا
- us
- تستخدم
- المستخدمين
- عادة
- متنوع
- Ve
- تحذير
- سواء
- التي
- في حين
- من الذى
- بدون
- للعمل
- عامل
- سوف
- زفيرنت
- زيوريخ