جنریٹو AI ماڈلز اپنے تربیتی ڈیٹا سے تصاویر کو حفظ کر سکتے ہیں، ممکنہ طور پر صارفین کو نجی کاپی رائٹ شدہ ڈیٹا نکالنے کی اجازت دیتے ہیں۔ تحقیق.
DALL-E، Stable Diffusion، اور Midjourney جیسے ٹولز کو انٹرنیٹ سے کھرچنے والی اربوں تصاویر پر تربیت دی جاتی ہے، بشمول آرٹ ورک اور لوگو جیسے کاپی رائٹ سے محفوظ ڈیٹا۔ وہ اشیاء اور طرزوں کی بصری نمائندگی کو قدرتی زبان میں نقشہ بنانا سیکھتے ہیں۔ جب انہیں ان پٹ کے طور پر متن کی تفصیل دی جاتی ہے، تو وہ آؤٹ پٹ کے بطور کیپشن سے مماثل ایک تصویر تیار کرتے ہیں۔
نئی ٹکنالوجی نے کاپی رائٹ پر ایک نئی قانونی بحث کو جنم دیا ہے: کیا یہ ٹولز املاک دانش کے حقوق کی خلاف ورزی کرتے ہیں کیونکہ انہوں نے کاپی رائٹ شدہ تصاویر کو بغیر اجازت کے کھایا ہے؟
مقدمے ہوئے ہیں۔ دائر کاپی رائٹ کی خلاف ورزی کرنے والے سب سے مشہور جنریٹو AI ٹولز بنانے والوں کے خلاف۔ ٹیکسٹ ٹو امیج ماڈل بنانے والی کمپنیاں دلیل دیتی ہیں کہ چونکہ ان کا سافٹ ویئر منفرد امیجز تیار کرتا ہے، اس لیے کاپی رائٹ ڈیٹا کا ان کا استعمال منصفانہ استعمال ہے۔ لیکن جن فنکاروں نے اپنے انداز اور کام کو ان ٹولز کے ذریعے نقل کرتے ہوئے دیکھا ہے ان کا خیال ہے کہ انہیں پھاڑ دیا گیا ہے۔
اب گوگل، ڈیپ مائنڈ، یونیورسٹی آف کیلیفورنیا، برکلے، ای ٹی ایچ زیورخ، اور پرنسٹن یونیورسٹی میں کام کرنے والے محققین کی سربراہی میں کی گئی تحقیق سے پتہ چلتا ہے کہ ان ماڈلز کی تربیت کے لیے استعمال ہونے والی تصاویر کو نکالا جا سکتا ہے۔ تخلیقی AI ماڈل تصاویر کو حفظ کرتے ہیں اور کاپی رائٹ اور رازداری کے نئے خدشات کو بڑھاتے ہوئے ان کی درست کاپیاں تیار کر سکتے ہیں۔
ان تصاویر کی کچھ مثالیں جو محققین نے Stable Diffusion سے نکالنے میں کامیاب کیں۔
مطالعہ کے شریک مصنفین نے بتایا کہ "حقیقی حملے میں، جہاں ایک مخالف نجی معلومات نکالنا چاہتا ہے، وہ اس لیبل یا کیپشن کا اندازہ لگاتے ہیں جو کسی تصویر کے لیے استعمال کیا گیا تھا"۔ رجسٹر.
"خوش قسمتی سے حملہ آور کے لیے، ہمارا طریقہ بعض اوقات کام کر سکتا ہے یہاں تک کہ اگر اندازہ درست نہ ہو۔ مثال کے طور پر، ہم این گراہم لوٹز کے پورٹریٹ کو صرف اس کے نام کے ساتھ Stable Diffusion کا اشارہ دے کر نکال سکتے ہیں، بجائے اس کے کہ ٹریننگ سیٹ سے مکمل کیپشن ("Living in the light with Ann Graham Lotz")۔
صرف ماڈل کی طرف سے یاد کردہ تصاویر کو نکالا جا سکتا ہے، اور ماڈل کتنا ڈیٹا حفظ کر سکتا ہے اس کے تربیتی ڈیٹا اور سائز جیسے عوامل پر مختلف ہوتا ہے۔ ایک ہی تصویر کی کاپیاں یاد رکھنے کا امکان زیادہ ہوتا ہے، اور زیادہ پیرامیٹرز پر مشتمل ماڈلز بھی تصاویر کو یاد رکھنے کے قابل ہوتے ہیں۔
ٹیم 94 مثالوں میں سے 350,000 تصاویر نکالنے میں کامیاب رہی جو اسٹیبل ڈفیوژن کو تربیت دینے کے لیے استعمال کی گئیں، اور گوگل کی 23 مثالوں میں سے 1,000 تصاویر۔ تصویر ماڈل مقابلے کے لیے، Stable Diffusion کے 890 ملین پیرامیٹرز ہیں اور اسے 160 ملین امیجز پر تربیت دی گئی تھی، جبکہ Imagen کے پاس دو بلین پیرامیٹر ہیں – یہ واضح نہیں ہے کہ اس کی تربیت کے لیے کتنی تصاویر کا استعمال کیا گیا تھا۔
محققین نے کہا کہ "مستحکم پھیلاؤ کے لیے، ہمیں معلوم ہوا ہے کہ زیادہ تر حفظ کی گئی تصاویر کو تربیتی سیٹ میں 100 بار یا اس سے زیادہ نقل کیا گیا تھا، لیکن کچھ 10 بار تک،" محققین نے کہا۔ گوگل کے امیجین ماڈل کے لیے، جو کہ اسٹیبل ڈفیوژن سے بڑا ماڈل ہے اور چھوٹے ڈیٹاسیٹ پر تربیت یافتہ ہے، ایسا لگتا ہے کہ یادداشت بہت زیادہ ہوتی ہے۔ یہاں ہمیں کچھ ایسی تصویریں ملتی ہیں جو پورے ٹریننگ سیٹ میں صرف ایک بار موجود ہیں، پھر بھی نکالی جا سکتی ہیں۔"
انہیں اس بات کا یقین نہیں ہے کہ کیوں بڑے ماڈلز زیادہ تصاویر کو حفظ کرنے کا رجحان رکھتے ہیں، لیکن یقین کریں کہ اس کے پیرامیٹرز میں اپنے تربیتی ڈیٹا کو زیادہ ذخیرہ کرنے کے قابل ہونے کے ساتھ اس کا کوئی تعلق ہو سکتا ہے۔
ان ماڈلز کے لیے یادداشت کی شرح کافی کم ہے، اور حقیقت میں تصاویر نکالنا مشکل اور مشکل ہوگا۔ حملہ آوروں کو اندازہ لگانا پڑے گا اور ماڈل کو یادگار ڈیٹا بنانے میں لے جانے کے لیے متعدد اشارے آزمانے ہوں گے۔ پھر بھی، ٹیم ڈویلپرز کو متنبہ کر رہی ہے کہ وہ نجی حساس ڈیٹا پر جنریٹیو AI ماڈلز کو تربیت دینے سے باز رہیں۔
"حافظہ کتنا برا ہے اس کا انحصار جنریٹیو ماڈلز کے استعمال پر ہے۔ انتہائی نجی ایپلی کیشنز میں، جیسے کہ میڈیکل ڈومین میں (مثلاً سینے کے ایکس رے یا میڈیکل ریکارڈ کی تربیت)، حفظ کرنا انتہائی ناپسندیدہ ہے، چاہے اس سے صارفین کے بہت ہی چھوٹے حصے کو متاثر کیا جائے۔ مزید برآں، پرائیویسی حساس ایپلی کیشنز میں استعمال ہونے والے ٹریننگ سیٹ عام طور پر موجودہ تخلیقی آرٹ ماڈلز کی تربیت کے لیے استعمال کیے جانے والے سیٹوں سے چھوٹے ہوتے ہیں۔ لہذا، ہم بہت زیادہ حفظ دیکھ سکتے ہیں، بشمول تصاویر جو نقل نہیں کی گئی ہیں، "انہوں نے ہمیں بتایا۔
ڈیٹا نکالنے کو روکنے کا ایک طریقہ یہ ہے کہ ماڈلز میں یادداشت کے امکانات کو کم کیا جائے۔ مثال کے طور پر، تربیتی ڈیٹاسیٹ میں ڈپلیکیٹس سے چھٹکارا حاصل کرنے سے تصاویر کے یاد رکھنے اور نکالے جانے کے امکانات کم ہو جائیں گے۔ Stable AI، Stable Diffusion کے تخلیق کاروں نے مبینہ طور پر محققین کے نتائج سے آزادانہ طور پر کم ڈپلیکیٹس پر مشتمل ڈیٹا سیٹ پر اپنے جدید ترین ماڈل کو تربیت دی ہے۔
اب جب کہ یہ ثابت ہو چکا ہے کہ ٹیکسٹ ٹو امیج ماڈل ان تصاویر کی صحیح کاپیاں تیار کر سکتے ہیں جن پر انہیں تربیت دی گئی تھی، یہ واضح نہیں ہے کہ اس سے کاپی رائٹ کے معاملات کیسے متاثر ہو سکتے ہیں۔
"ایک عام دلیل جسے ہم نے لوگوں کو آن لائن بناتے دیکھا تھا وہ تھا 'یہ ماڈل کبھی بھی تربیتی ڈیٹا کو یاد نہیں کرتے'۔ اب ہم جانتے ہیں کہ یہ واضح طور پر غلط ہے۔ لیکن کیا یہ حقیقت میں قانونی بحث میں اہمیت رکھتا ہے یا نہیں یہ بھی بحث کے لئے ہے، "محققین نے نتیجہ اخذ کیا۔
"کم از کم اب، ان مقدمات کے دونوں فریقوں کے پاس کچھ اور ٹھوس حقائق ہیں جن پر وہ بھروسہ کر سکتے ہیں: ہاں، یادداشت ہوتی ہے؛ لیکن یہ بہت نایاب ہے؛ اور ایسا لگتا ہے کہ یہ بنیادی طور پر انتہائی نقل شدہ تصاویر کے لیے ہوتا ہے۔ ®
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://go.theregister.com/feed/www.theregister.com/2023/02/06/uh_oh_attackers_can_extract/
- 000
- 1
- 10
- 100
- a
- قابلیت
- کے مطابق
- اصل میں
- کے خلاف
- AI
- اجازت دے رہا ہے
- اور
- درخواست
- ایپلی کیشنز
- بحث
- دلیل
- فن
- آرٹسٹ
- آرٹ ورک
- حملہ
- برا
- کیا جا رہا ہے
- یقین ہے کہ
- برکلے
- ارب
- اربوں
- سرحد
- دونوں اطراف
- عمارت
- کیلی فورنیا
- مقدمات
- سینٹر
- مشکلات
- واضح
- واضح طور پر
- کامن
- کمپنیاں
- موازنہ
- اندراج
- یہ نتیجہ اخذ کیا
- کاپیاں
- کاپی رائٹ
- سکتا ہے
- تخلیق کاروں
- موجودہ
- dall-e
- اعداد و شمار
- بحث
- کمی
- Deepmind
- انحصار کرتا ہے
- تفصیل
- ڈویلپرز
- براڈ کاسٹننگ
- ڈومین
- نقل
- پوری
- ETH
- ETH زیورخ
- Ether (ETH)
- بھی
- بالکل
- مثال کے طور پر
- مثال کے طور پر
- نکالنے
- نکالنے
- عوامل
- منصفانہ
- چند
- مل
- خوش قسمتی سے
- کسر
- بار بار اس
- تازہ
- سے
- مکمل
- مزید برآں
- پیدا
- پیدا ہوتا ہے
- پیدا کرنے والے
- پیداواری
- پیداواری AI۔
- حاصل کرنے
- دی
- گوگل
- ہو
- ہوتا ہے
- یہاں
- انتہائی
- کس طرح
- HTTPS
- تصویر
- تصاویر
- اثر
- in
- سمیت
- آزادانہ طور پر
- معلومات
- ان پٹ
- کے بجائے
- دانشورانہ
- املاک دانش
- انٹرنیٹ
- IT
- جان
- لیبل
- زبان
- بڑے
- قانونی مقدموں
- قیادت
- جانیں
- قیادت
- قانونی
- روشنی
- امکان
- رہ
- بہت
- لو
- بنا
- سازوں
- میں کامیاب
- بہت سے
- نقشہ
- کے ملاپ
- معاملات
- طبی
- طریقہ
- درمیانی سفر
- شاید
- دس لاکھ
- ماڈل
- ماڈل
- زیادہ
- سب سے زیادہ
- سب سے زیادہ مقبول
- نام
- قدرتی
- قدرتی زبان
- نئی
- تازہ ترین
- متعدد
- اشیاء
- آن لائن
- پیرامیٹرز
- لوگ
- کامل
- اجازت
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- مقبول
- تصویر
- ممکن
- حال (-)
- خوبصورت
- کی روک تھام
- پرنسٹن
- کی رازداری
- نجی
- نجی معلومات
- جائیداد
- جائیداد کے حقوق
- محفوظ
- ثابت
- بلند
- Rare
- قیمتیں
- RE
- اصلی
- حقیقت
- ریکارڈ
- یاد
- تحقیق
- محققین
- چھٹکارا
- حقوق
- پھٹا ہوا
- کہا
- اسی
- لگتا ہے
- حساس
- مقرر
- سیٹ
- اطمینان
- بعد
- ایک
- سائز
- چھوٹے
- چھوٹے
- سافٹ ویئر کی
- کچھ
- کچھ
- استحکام
- مستحکم
- ابھی تک
- ذخیرہ
- مطالعہ
- اس طرح
- ٹیم
- ٹیکنالوجی
- ۔
- ان
- لہذا
- وقت
- اوقات
- کرنے کے لئے
- بھی
- اوزار
- ٹرین
- تربیت یافتہ
- ٹریننگ
- منفرد
- یونیورسٹی
- یونیورسٹی آف کیلی فورنیا
- us
- استعمال کی شرائط
- صارفین
- عام طور پر
- مختلف
- Ve
- انتباہ
- چاہے
- جس
- جبکہ
- ڈبلیو
- بغیر
- کام
- کام کر
- گا
- زیفیرنیٹ
- زیورخ