OpenAI: اعلی درجے کی AI کو تربیت دینا اور کاپی رائٹ سے بچنا ناممکن ہے۔

OpenAI: اعلی درجے کی AI کو تربیت دینا اور کاپی رائٹ سے بچنا ناممکن ہے۔

ماخذ نوڈ: 3052150

اوپن اے آئی نے کہا ہے کہ لوگوں کے کاپی رائٹ والے کام کو استعمال کیے بغیر اعلیٰ درجے کے نیورل نیٹ ورکس بنانا "ناممکن" ہوگا جو آج کی ضروریات کو پورا کرتے ہیں۔ مائیکروسافٹ کی حمایت یافتہ لیب، جس کا خیال ہے کہ وہ اپنے ماڈلز کی تربیت کے لیے کہا گیا مواد قانونی طور پر حاصل کر رہی ہے، نے کہا کہ کاپی رائٹ سے باہر پبلک ڈومین مواد استعمال کرنے کے نتیجے میں ذیلی برابری سافٹ ویئر ہو گا۔

یہ دعویٰ ایسے وقت میں سامنے آیا ہے جب مشین سیکھنے والی دنیا کاپی رائٹ کے قانون کی اینٹوں کی دیوار پر سب سے پہلے دوڑ رہی ہے۔ ابھی اسی ہفتے IEEE کی ایک رپورٹ نے Midjourney اور OpenAI کی DALL-E 3 کا نتیجہ اخذ کیا، جو کہ متن کے اشارے کو تصاویر میں تبدیل کرنے کے لیے دو بڑی AI سروسز ہیں، جو اپنے تربیتی ڈیٹا کی بنیاد پر فلموں اور ویڈیو گیمز سے کاپی رائٹ والے مناظر کو دوبارہ بنا سکتی ہیں۔

۔ مطالعہ، گیری مارکس، ایک AI ماہر اور نقاد، اور ایک ڈیجیٹل مصور، ریڈ ساؤتھن کے مشترکہ مصنف، "سرقہ سے متعلق نتائج" کی متعدد مثالوں کو دستاویز کرتے ہیں جس میں OpenAI اور DALL-E 3 فلموں کے مناظر کے کافی حد تک ملتے جلتے ورژن پیش کرتے ہیں۔ اداکار، اور ویڈیو گیم کا مواد۔

مارکس اور ساؤتھن کا کہنا ہے کہ یہ تقریباً یقینی ہے کہ Midjourney اور OpenAI نے کاپی رائٹ والے مواد پر اپنے متعلقہ AI امیج جنریشن ماڈلز کو تربیت دی ہے۔

چاہے یہ قانونی ہے، اور چاہے AI وینڈرز یا ان کے صارفین کو ذمہ دار ٹھہرائے جانے کا خطرہ ہے، متنازعہ سوال رہے گا۔ تاہم، رپورٹ کے نتائج کاپی رائٹ کی خلاف ورزی کے لیے Midjourney اور DALL-E بنانے والی OpenAI پر مقدمہ کرنے والوں کو تقویت دے سکتے ہیں۔

ہو سکتا ہے صارفین کو معلوم نہ ہو کہ وہ تصویر بناتے وقت، آیا وہ خلاف ورزی کر رہے ہیں۔

"OpenAI اور Midjourney دونوں ایسے مواد تیار کرنے کی پوری صلاحیت رکھتے ہیں جو کاپی رائٹ اور ٹریڈ مارک کی خلاف ورزی کرتے دکھائی دیتے ہیں،" انہوں نے لکھا۔ "یہ سسٹم صارفین کو مطلع نہیں کرتے جب وہ ایسا کرتے ہیں۔ وہ اپنی تیار کردہ تصاویر کی اصلیت کے بارے میں کوئی معلومات فراہم نہیں کرتے ہیں۔ ہو سکتا ہے کہ صارفین کو معلوم نہ ہو، جب وہ کوئی تصویر تیار کرتے ہیں، آیا وہ خلاف ورزی کر رہے ہیں۔"

نہ ہی biz نے اپنے AI ماڈل بنانے کے لیے استعمال ہونے والے تربیتی ڈیٹا کو مکمل طور پر ظاہر نہیں کیا ہے۔

یہ صرف نہیں ہے ڈیجیٹل فنکار AI کمپنیوں کو چیلنج کرنا۔ حال ہی میں نیویارک ٹائمز OpenAI پر مقدمہ چلایا کیونکہ اس کا ChatGPT ٹیکسٹ ماڈل اخبار کے پے وال والے مضامین کی قریب تر لفظی کاپیوں کو تھوک دے گا۔ کتاب کے مصنفین اسی طرح کے دعوے دائر کیے ہیں، جیسا کہ کیا ہے۔ سافٹ ویئر ڈویلپرز.

پہلے تحقیق نے اشارہ کیا ہے کہ اوپن اے آئی کے چیٹ جی پی ٹی کو تربیتی متن کو دوبارہ تیار کرنے کے لیے اکٹھا کیا جا سکتا ہے۔ اور جو لوگ مائیکروسافٹ اور گٹ ہب پر مقدمہ چلاتے ہیں وہ دعوی کرتے ہیں کہ Copilot کوڈنگ اسسٹنٹ ماڈل کوڈ کو کم و بیش لفظی طور پر دوبارہ پیش کرے گا۔

ساؤتھن نے مشاہدہ کیا کہ مڈجرنی ان صارفین سے چارج کر رہا ہے جو خلاف ورزی کرنے والا مواد تخلیق کر رہے ہیں اور سبسکرپشن ریونیو کے ذریعے منافع کما رہے ہیں۔ "MJ [Mid Journey] کے صارفین کو کاپی رائٹ کی خلاف ورزی کے ممکنہ طور پر ہونے کے لیے تصاویر بیچنے کی ضرورت نہیں ہے، MJ پہلے ہی اس کی تخلیق سے فائدہ اٹھا رہا ہے،" وہ کھول دیا، IEEE رپورٹ میں کی گئی دلیل کی بازگشت۔

اوپن اے آئی سبسکرپشن فیس بھی لیتی ہے اور اسی طرح منافع کماتی ہے۔ نہ ہی OpenAI اور Midjourney نے تبصرہ کی درخواستوں کا جواب نہیں دیا۔

تاہم، OpenAI نے پیر کو ایک شائع کیا بلاگ پوسٹ نیو یارک ٹائمز کے مقدمے سے خطاب کرتے ہوئے، جسے اے آئی بیچنے والے نے کہا کہ اس میں میرٹ کی کمی ہے۔ حیران کن طور پر، لیب نے کہا کہ اگر اس کے عصبی نیٹ ورکس نے خلاف ورزی کرنے والا مواد تیار کیا تو یہ ایک "بگ" تھا۔

مجموعی طور پر، اپ اسٹارٹ نے آج دلیل دی کہ: یہ خبر رساں اداروں کے ساتھ فعال طور پر تعاون کرتا ہے۔ کاپی رائٹ شدہ ڈیٹا پر تربیت کاپی رائٹ قانون کے تحت منصفانہ استعمال کے دفاع کے لیے اہل ہے۔ "'regurgitation' ایک نایاب بگ ہے جسے ہم صفر تک پہنچانے کے لیے کام کر رہے ہیں"؛ اور نیویارک ٹائمز میں متن کی تولید کی چیری چنی ہوئی مثالیں ہیں جو عام رویے کی نمائندگی نہیں کرتی ہیں۔

قانون فیصلہ کرے گا۔

کیلیفورنیا کی سانتا کلارا یونیورسٹی کے شعبہ قانون کے پروفیسر ٹائلر اوچوا نے بتایا۔ رجسٹر کہ جب کہ IEEE رپورٹ کے نتائج کاپی رائٹ کے دعووں کے ساتھ قانونی چارہ جوئی کرنے والوں کی مدد کرنے کا امکان رکھتے ہیں، انہیں ایسا نہیں کرنا چاہیے - کیونکہ مضمون کے مصنفین نے، ان کے خیال میں، کیا ہو رہا ہے، غلط بیان کیا ہے۔

"وہ لکھتے ہیں: 'کیا تصویر بنانے والے ماڈلز کو کاپی رائٹ کے مواد کی بنیاد پر سرقہ پر مبنی نتائج پیدا کرنے کی ترغیب دی جا سکتی ہے؟ …

اوچوا نے اس نتیجے پر سوال اٹھایا، اس بات پر استدلال کرتے ہوئے کہ رپورٹ کے مصنفین نے "درج کیا یہ ظاہر کرتا ہے کہ وہ، درحقیقت، براہ راست سرقہ کے نتائج کا مطالبہ کر رہے ہیں۔ ہر ایک پرامپٹ ایک مخصوص فلم کے ٹائٹل کا ذکر کرتا ہے، اسپیکٹ ریشو کو بتاتا ہے، اور صرف ایک صورت میں، الفاظ 'مووی' اور 'اسکرین شاٹ' یا 'اسکرین کیپ'۔ (ایک استثنا اس تصویر کی وضاحت کرتا ہے جسے وہ نقل کرنا چاہتے تھے۔ )"

قانون کے پروفیسر نے کہا کہ کاپی رائٹ قانون کا مسئلہ اس بات کا تعین کر رہا ہے کہ ان سرقہ کے نتائج کے لیے کون ذمہ دار ہے: AI ماڈل کے تخلیق کار یا وہ لوگ جنہوں نے AI ماڈل سے ایک مقبول منظر کو دوبارہ پیش کرنے کو کہا۔

Ochoa نے وضاحت کی، "جنریٹیو AI ماڈل اصل آؤٹ پٹ پیدا کرنے کی صلاحیت رکھتا ہے، اور یہ ایسے مناظر کو دوبارہ پیش کرنے کی بھی صلاحیت رکھتا ہے جو کہ کاپی رائٹ والے ان پٹس کے مناظر سے مشابہت رکھتے ہیں،" Ochoa نے وضاحت کی۔ "اس کا تجزیہ شراکتی خلاف ورزی کے معاملے کے طور پر کیا جانا چاہئے: وہ شخص جس نے ماڈل کی طرف اشارہ کیا وہ بنیادی خلاف ورزی کرنے والا ہے، اور ماڈل کے تخلیق کار صرف اس صورت میں ذمہ دار ہیں جب انہیں بنیادی خلاف ورزی کے بارے میں آگاہ کیا گیا تھا اور انہوں نے روکنے کے لیے معقول اقدامات نہیں کیے تھے۔ یہ."

Ochoa نے کہا کہ جنریٹیو AI ماڈلز میں مخصوص امیجز کو دوبارہ بنانے کا زیادہ امکان ہوتا ہے جب ان کے تربیتی ڈیٹا سیٹ میں ان تصاویر کی متعدد مثالیں موجود ہوں۔

"اس معاملے میں، یہ بہت کم امکان ہے کہ تربیتی ڈیٹا میں پوری فلمیں شامل ہوں؛ اس بات کا کہیں زیادہ امکان ہے کہ تربیتی اعداد و شمار میں فلموں کی اسٹیل امیجز شامل ہوں جو فلم کے لیے پبلسٹی اسٹیلز کے طور پر تقسیم کی گئی تھیں،‘‘ انہوں نے کہا۔ "ان تصاویر کو تربیتی ڈیٹا میں متعدد بار دوبارہ پیش کیا گیا تھا کیونکہ میڈیا آؤٹ لیٹس کو ان تصاویر کو تشہیر کے مقاصد کے لیے تقسیم کرنے کی ترغیب دی گئی تھی اور ایسا کیا۔

"ایک کاپی رائٹ کے مالک کے لیے یہ بنیادی طور پر غیر منصفانہ ہو گا کہ وہ تشہیر کے مقاصد کے لیے اسٹیل امیجز کے وسیع پیمانے پر پھیلانے کی حوصلہ افزائی کرے، اور پھر شکایت کرے کہ ان تصاویر کی نقل ایک AI کے ذریعے کی جا رہی ہے کیونکہ تربیتی ڈیٹا میں ان ہی تصاویر کی متعدد کاپیاں شامل ہیں۔"

Ochoa نے کہا کہ AI ماڈلز سے اس طرح کے رویے کو محدود کرنے کے اقدامات ہیں۔ "سوال یہ ہے کہ کیا انہیں ایسا کرنا چاہیے تھا، جب پرامپٹ میں داخل ہونے والا شخص واضح طور پر AI کو ایک قابل شناخت تصویر دوبارہ پیش کرنا چاہتا تھا، اور فلمی اسٹوڈیوز جنہوں نے اصلی اسٹیل امیجز تیار کیں وہ واضح طور پر چاہتے تھے کہ ان ساکن تصاویر کو وسیع پیمانے پر تقسیم کیا جائے۔ "انہوں نے کہا.

"ایک بہتر سوال یہ ہوگا: یہ کتنی بار ہوتا ہے جب پرامپٹ کسی خاص فلم کا ذکر نہیں کرتا یا کسی مخصوص کردار یا منظر کی وضاحت نہیں کرتا؟ میرے خیال میں ایک غیرجانبدار محقق کو یہ معلوم ہوگا کہ جواب شاذ و نادر ہی ملتا ہے (شاید تقریبا کبھی نہیں)۔

بہر حال، کاپی رائٹ شدہ مواد ان ماڈلز کو اچھی طرح سے کام کرنے کے لیے ضروری ایندھن لگتا ہے۔

OpenAI لارڈز کے سامنے اپنا دفاع کرتا ہے۔

کے جواب میں ایک انکوائری برطانیہ کے ہاؤس آف لارڈز کمیونیکیشنز اینڈ ڈیجیٹل کمیٹی کے ذریعہ AI ماڈلز کے خطرات اور مواقع میں، OpenAI نے ایک پیش کیا۔ جمع کرانے [پی ڈی ایف] انتباہ کہ اس کے ماڈل کاپی رائٹ والے مواد پر تربیت حاصل کیے بغیر کام نہیں کریں گے۔

سپر لیب نے کہا، "کیونکہ آج کاپی رائٹ تقریباً ہر طرح کے انسانی اظہار کا احاطہ کرتا ہے - بشمول بلاگ پوسٹس، تصاویر، فورم پوسٹس، سافٹ ویئر کوڈ کے اسکریپ، اور سرکاری دستاویزات - کاپی رائٹ والے مواد کا استعمال کیے بغیر آج کے معروف AI ماڈلز کو تربیت دینا ناممکن ہوگا،" سپر لیب نے کہا۔ .

"ایک صدی سے زیادہ پہلے تخلیق کردہ عوامی ڈومین کی کتابوں اور ڈرائنگ تک تربیتی ڈیٹا کو محدود کرنا ایک دلچسپ تجربہ کر سکتا ہے، لیکن یہ AI سسٹم فراہم نہیں کرے گا جو آج کے شہریوں کی ضروریات کو پورا کرتا ہے۔"

AI biz نے کہا کہ اس کا خیال ہے کہ یہ کاپی رائٹ قانون کی تعمیل کرتا ہے اور کاپی رائٹ شدہ مواد کی تربیت قانونی ہے، حالانکہ یہ اس بات کی اجازت دیتا ہے کہ "تخلیق کاروں کی حمایت اور انہیں بااختیار بنانے کے لیے ابھی بھی کام کرنا باقی ہے۔"

اس جذبے کو، جو کاپی رائٹ والے کام کے قابل بحث منصفانہ استعمال کے معاوضے کے بارے میں اخلاقی خدشات کی سفارتی شناخت کی طرح لگتا ہے، کو IEEE رپورٹ کے اس دعوے کے ساتھ مل کر سمجھا جانا چاہیے کہ، "ہمیں ایسے شواہد ملے ہیں کہ مڈجرنی میں ایک سینئر سافٹ ویئر انجینئر نے حصہ لیا۔ ایک گفتگو فروری 2022 میں اس بارے میں کہ کاپی رائٹ کے قانون سے کیسے بچنا ہے ڈیٹا کو 'فائن ٹیونڈ کوڈیکس کے ذریعے لانڈرنگ'۔

مارکس، IEEE رپورٹ کے شریک مصنف، نے UK میں اپنے موجودہ کاروباری طریقوں کے لیے ایک ریگولیٹری گرین لائٹ حاصل کرنے کے لیے OpenAI کی کوششوں پر شکوک کا اظہار کیا۔

"معمولی ترجمہ: اگر آپ ہمیں چوری نہیں کرنے دیں گے تو ہم زیادہ امیر نہیں ہوں گے، لہذا براہ کرم چوری کو جرم نہ بنائیں!" انہوں نے سوشل میڈیا پر لکھا پوسٹ. "ہمیں ادائیگی نہ کرو لائسنسنگ فیس، یا تو! یقینی طور پر Netflix لائسنسنگ فیس میں ایک سال میں اربوں ادا کر سکتا ہے، لیکن we نہیں ہونا چاہئے! ہمارے لیے مزید پیسے، موار!‘‘

OpenAI نے انٹرپرائز ChatGPT اور API صارفین کو معاوضہ دینے کی پیشکش کی ہے۔ کاپی رائٹ کے دعووں کے خلافاگرچہ گاہک یا گاہک کے آخری صارفین کو "معلوم تھا یا معلوم ہونا چاہیے تھا کہ آؤٹ پٹ خلاف ورزی کر رہا ہے یا اس کی خلاف ورزی کا امکان ہے" یا اگر صارف نے حفاظتی خصوصیات کو نظرانداز کیا ہے، دیگر حدود کے درمیان. اس طرح، DALL-E 3 سے ایک مشہور فلمی منظر کو دوبارہ تخلیق کرنے کے لیے پوچھنا – جس کے بارے میں صارفین کو معلوم ہونا چاہیے کہ شاید کاپی رائٹ کے تحت آتا ہے – معاوضے کے لیے اہل نہیں ہوگا۔

Midjourney نے متعلقہ دعووں سے پیدا ہونے والے قانونی اخراجات کی وصولی کے لیے خلاف ورزی میں ملوث صارفین کو تلاش کرنے اور ان کے خلاف مقدمہ کرنے کا وعدہ کرتے ہوئے مخالف نقطہ نظر اختیار کیا ہے۔

"اگر آپ جان بوجھ کر کسی اور کی دانشورانہ املاک کی خلاف ورزی کرتے ہیں، اور اس سے ہمیں پیسے لگتے ہیں، تو ہم آپ کو ڈھونڈیں گے اور آپ سے وہ رقم جمع کریں گے،" مڈجرنی سروس کی شرائط حالت. "ہم دوسری چیزیں بھی کر سکتے ہیں، جیسے کہ آپ کو ہماری قانونی فیس ادا کرنے کے لیے عدالت سے رجوع کرنے کی کوشش کریں۔ مت کرو۔" ®

ٹائم اسٹیمپ:

سے زیادہ رجسٹر