OpenAI: من المستحيل تدريب الذكاء الاصطناعي من الدرجة الأولى وتجنب حقوق الطبع والنشر

OpenAI: من المستحيل تدريب الذكاء الاصطناعي من الدرجة الأولى وتجنب حقوق الطبع والنشر

عقدة المصدر: 3052150

قالت شركة OpenAI إنه سيكون من "المستحيل" بناء شبكات عصبية من الدرجة الأولى تلبي احتياجات اليوم دون استخدام أعمال الأشخاص المحمية بحقوق الطبع والنشر. قال المختبر المدعوم من Microsoft، والذي يعتقد أنه يجمع المحتوى المذكور بشكل قانوني لتدريب نماذجه، إن استخدام مواد المجال العام خارج نطاق حقوق الطبع والنشر سيؤدي إلى برامج ذكاء اصطناعي دون المستوى.

ويأتي هذا التأكيد في وقت حيث يركض عالم التعلم الآلي بسرعة كبيرة نحو جدار من الطوب وهو قانون حقوق الطبع والنشر. هذا الأسبوع فقط، خلص تقرير IEEE إلى أن Midjourney وDALL-E 3 من OpenAI، وهما من خدمات الذكاء الاصطناعي الرئيسية لتحويل المطالبات النصية إلى صور، يمكنهما إعادة إنشاء مشاهد محمية بحقوق الطبع والنشر من الأفلام وألعاب الفيديو بناءً على بيانات التدريب الخاصة بهما.

دراسة، الذي شارك في تأليفه غاري ماركوس، خبير وناقد في مجال الذكاء الاصطناعي، وريد ساوثين، الرسام الرقمي، يوثق حالات متعددة من "المخرجات المسروقة" التي يقدم فيها OpenAI وDALL-E 3 نسخًا متشابهة إلى حد كبير من مشاهد من الأفلام، وصور المشاهير الممثلين ومحتوى ألعاب الفيديو.

يقول ماركوس وساوثين إنه من شبه المؤكد أن Midjourney وOpenAI قاما بتدريب نماذج توليد الصور الخاصة بالذكاء الاصطناعي على مواد محمية بحقوق الطبع والنشر.

سواء كان ذلك قانونيًا، وما إذا كان بائعو الذكاء الاصطناعي أو عملاؤهم يواجهون خطر التعرض للمسؤولية، يظل سؤالًا مثيرًا للجدل. ومع ذلك، فإن نتائج التقرير قد تدعم أولئك الذين يقاضون Midjourney وشركة OpenAI المصنعة لـ DALL-E بسبب انتهاك حقوق الطبع والنشر.

قد لا يعرف المستخدمون، عندما ينتجون صورة، ما إذا كانوا ينتهكون ذلك أم لا

وكتبوا: "إن كلاً من OpenAI وMidjourney قادران تمامًا على إنتاج مواد يبدو أنها تنتهك حقوق الطبع والنشر والعلامات التجارية". "لا تقوم هذه الأنظمة بإبلاغ المستخدمين عندما يقومون بذلك. ولا يقدمون أي معلومات حول مصدر الصور التي ينتجونها. وقد لا يعرف المستخدمون، عندما ينتجون صورة، ما إذا كانوا ينتهكون ذلك أم لا.

لم يكشف أي من الشركتين بشكل كامل عن بيانات التدريب المستخدمة في صنع نماذج الذكاء الاصطناعي الخاصة بهما.

انها ليست مجرد الفنانين الرقمية تحدي شركات الذكاء الاصطناعي. نيويورك تايمز مؤخرا رفع دعوى ضد شركة OpenAI لأن نموذج النص ChatGPT الخاص به سوف ينشر نسخًا شبه حرفية من مقالات الصحيفة المحظورة. مؤلفو الكتاب قدمت مطالبات مماثلة، كما فعلت مطوري البرمجيات.

قبل بحث أشار إلى أنه يمكن إقناع ChatGPT الخاص بـ OpenAI بإعادة إنتاج نص التدريب. ويؤكد أولئك الذين رفعوا دعوى قضائية ضد Microsoft وGitHub أن نموذج مساعد الترميز Copilot سيعيد إنتاج التعليمات البرمجية حرفيًا بشكل أو بآخر.

لاحظ ساوثين أن Midjourney تفرض رسومًا على العملاء الذين ينشئون محتوى مخالفًا ويستفيدون من إيرادات الاشتراكات. "لا يتعين على مستخدمي MJ [Midjourney] بيع الصور بسبب احتمال حدوث انتهاك لحقوق الطبع والنشر، حيث تستفيد MJ بالفعل من إنشائها". رأى، مرددًا الحجة الواردة في تقرير IEEE.

تتقاضى OpenAI أيضًا رسوم اشتراك وبالتالي تحقق أرباحًا بنفس الطريقة. ولم يستجب كل من OpenAI وMidjourney لطلبات التعليق.

ومع ذلك، نشرت OpenAI يوم الاثنين أ بلوق وظيفة معالجة الدعوى القضائية التي رفعتها صحيفة نيويورك تايمز، والتي قال بائع الذكاء الاصطناعي إنها تفتقر إلى الجدارة. ومن المثير للدهشة أن المختبر قال إنه إذا أنتجت شبكاته العصبية محتوى مخالفًا، فهذا يعد "خطأ".

في المجمل، زعمت الشركة الناشئة اليوم ما يلي: إنها تتعاون بنشاط مع المؤسسات الإخبارية؛ التدريب على البيانات المحمية بحقوق الطبع والنشر يؤهل للدفاع عن الاستخدام العادل بموجب قانون حقوق الطبع والنشر؛ "القلس هو خطأ نادر نعمل على التخلص منه"؛ وقد قدمت صحيفة نيويورك تايمز أمثلة منتقاة بعناية لإعادة إنتاج النص والتي لا تمثل سلوكًا نموذجيًا.

القانون سيقرر

وقال تايلر أوتشوا، الأستاذ في قسم القانون بجامعة سانتا كلارا في كاليفورنيا السجل أنه في حين أن نتائج تقرير IEEE من المرجح أن تساعد المتقاضين في مطالبات حقوق الطبع والنشر، فلا ينبغي لهم ذلك - لأن مؤلفي المقال، في رأيه، أساءوا تمثيل ما يحدث.

"لقد كتبوا:" هل يمكن حث نماذج توليد الصور على إنتاج مخرجات مسروقة بناءً على مواد محمية بحقوق الطبع والنشر؟ … [وجدنا] أن الإجابة هي نعم بوضوح، حتى دون التماس نتائج مسروقة بشكل مباشر.'”

شكك أوتشوا في هذا الاستنتاج، قائلاً إن المطالبات التي أدخلها مؤلفو التقرير "تُظهر أنهم، في الواقع، يطلبون بشكل مباشر مخرجات مسروقة. تذكر كل مطالبة عنوان فيلم معين، وتحدد نسبة العرض إلى الارتفاع، وفي جميع الحالات باستثناء حالة واحدة، الكلمات "فيلم" و"لقطة شاشة" أو "لقطة شاشة". (الاستثناء الوحيد يصف الصورة التي أرادوا تكرارها. )"

قال أستاذ القانون إن المشكلة المتعلقة بقانون حقوق الطبع والنشر هي تحديد المسؤول عن هذه المخرجات المسروقة: منشئو نموذج الذكاء الاصطناعي أو الأشخاص الذين طلبوا من نموذج الذكاء الاصطناعي إعادة إنتاج مشهد شائع.

وأوضح أوتشوا أن "نموذج الذكاء الاصطناعي التوليدي قادر على إنتاج مخرجات أصلية، كما أنه قادر على إعادة إنتاج مشاهد تشبه مشاهد من مدخلات محمية بحقوق الطبع والنشر عند الطلب". "ينبغي تحليل هذا كحالة انتهاك مساهم: الشخص الذي دفع النموذج هو المتعدي الأساسي، ولا يتحمل منشئو النموذج المسؤولية إلا إذا كانوا على علم بالانتهاك الأساسي ولم يتخذوا خطوات معقولة لإيقافه هو - هي."

وقال أوتشوا إن نماذج الذكاء الاصطناعي التوليدية من المرجح أن تقوم بإعادة إنتاج صور محددة عندما تكون هناك أمثلة متعددة لتلك الصور في مجموعة بيانات التدريب الخاصة بها.

"في هذه الحالة، من غير المرجح أن تتضمن بيانات التدريب أفلامًا كاملة؛ ومن الأرجح أن بيانات التدريب تضمنت صورًا ثابتة من الأفلام التي تم توزيعها كلقطات دعائية للفيلم. "تم إعادة إنتاج هذه الصور عدة مرات في بيانات التدريب لأنه تم تشجيع وسائل الإعلام على توزيع تلك الصور لأغراض الدعاية، وقد فعلت ذلك.

"سيكون من الظلم بشكل أساسي أن يقوم مالك حقوق الطبع والنشر بتشجيع نشر الصور الثابتة على نطاق واسع لأغراض الدعاية، ثم يشتكي من أن تلك الصور يتم تقليدها بواسطة الذكاء الاصطناعي لأن بيانات التدريب تتضمن نسخًا متعددة من تلك الصور نفسها."

وقال أوتشوا إن هناك خطوات للحد من مثل هذا السلوك من نماذج الذكاء الاصطناعي. "السؤال هو ما إذا كان ينبغي عليهم القيام بذلك، عندما يريد الشخص الذي أدخل الموجه بوضوح أن يجعل الذكاء الاصطناعي يعيد إنتاج صورة يمكن التعرف عليها، ومن الواضح أن استوديوهات الأفلام التي أنتجت الصور الثابتة الأصلية أرادت توزيع تلك الصور الثابتة على نطاق واسع ،" هو قال.

"السؤال الأفضل هو: كم مرة يحدث هذا عندما لا يذكر الموجه فيلمًا معينًا أو يصف شخصية أو مشهدًا محددًا؟ أعتقد أن الباحث غير المتحيز سيجد على الأرجح أن الإجابة نادرًا (وربما أبدًا تقريبًا)."

ومع ذلك، يبدو أن المحتوى المحمي بحقوق الطبع والنشر يشكل الوقود الأساسي لجعل هذه النماذج تعمل بشكل جيد.

OpenAI تدافع عن نفسها أمام اللوردات

ردا على استفسار في مخاطر وفرص نماذج الذكاء الاصطناعي من قبل لجنة الاتصالات والرقمية بمجلس اللوردات في المملكة المتحدة، قدمت OpenAI أ تسليم [PDF] يحذر من أن نماذجه لن تعمل دون التدريب على المحتوى المحمي بحقوق الطبع والنشر.

قال المختبر الكبير: "نظرًا لأن حقوق الطبع والنشر اليوم تغطي تقريبًا كل أنواع التعبير البشري - بما في ذلك منشورات المدونات والصور الفوتوغرافية ومشاركات المنتديات وقصاصات كود البرنامج والوثائق الحكومية - سيكون من المستحيل تدريب نماذج الذكاء الاصطناعي الرائدة اليوم دون استخدام مواد محمية بحقوق الطبع والنشر". .

"إن قصر بيانات التدريب على الكتب والرسومات العامة التي تم إنشاؤها منذ أكثر من قرن من الزمان قد يؤدي إلى تجربة مثيرة للاهتمام، ولكنه لن يوفر أنظمة الذكاء الاصطناعي التي تلبي احتياجات مواطني اليوم."

وقالت منظمة الذكاء الاصطناعي إنها تعتقد أنها تمتثل لقانون حقوق الطبع والنشر وأن التدريب على المواد المحمية بحقوق الطبع والنشر أمر قانوني، على الرغم من أنه يسمح "بأنه لا يزال هناك عمل يتعين القيام به لدعم المبدعين وتمكينهم".

وينبغي النظر في هذا الشعور، الذي يبدو وكأنه اعتراف دبلوماسي بالمخاوف الأخلاقية بشأن التعويض عن الاستخدام العادل للعمل المحمي بحقوق الطبع والنشر، جنبًا إلى جنب مع ادعاء تقرير IEEE بأننا "اكتشفنا دليلاً على أن أحد كبار مهندسي البرمجيات في Midjourney شارك في محادثة في فبراير 2022 حول كيفية التهرب من قانون حقوق الطبع والنشر عن طريق “غسل” البيانات “من خلال مخطوطة دقيقة”.

أعرب ماركوس، المؤلف المشارك لتقرير IEEE، عن شكوكه في جهود OpenAI للحصول على الضوء الأخضر التنظيمي في المملكة المتحدة لممارساتها التجارية الحالية.

"ترجمة تقريبية: لن نصبح أثرياء بشكل خرافي إذا لم تسمح لنا بالسرقة، لذا من فضلك لا تجعل السرقة جريمة!" كتب في وسائل التواصل الاجتماعي بريد.. اعلاني. "لا تجعلنا ندفع الترخيص الرسوم سواء! من المؤكد أن Netflix قد تدفع المليارات سنويًا كرسوم ترخيص، ولكن we لا ينبغي أن! المزيد من المال لنا يا موار!

عرضت OpenAI تعويض عملاء ChatGPT وAPI للمؤسسات ضد مطالبات حقوق التأليف والنشر، ولكن ليس إذا كان العميل أو المستخدمون النهائيون للعميل "يعلمون أو كان عليهم أن يعلموا أن المخرجات تنتهك أو من المحتمل أن تنتهك" أو إذا تجاوز العميل ميزات الأمان، من بين القيود الأخرى. وبالتالي، فإن مطالبة DALL-E 3 بإعادة إنشاء مشهد سينمائي مشهور - والذي يجب على المستخدمين أن يعرفوا أنه من المحتمل أن يكون مشمولاً بحقوق الطبع والنشر - لن يكون مؤهلاً للحصول على التعويض.

اتخذت Midjourney النهج المعاكس، حيث وعدت بمطاردة العملاء المتورطين في الانتهاك ومقاضاتهم لاسترداد التكاليف القانونية الناشئة عن المطالبات ذات الصلة.

"إذا كنت تنتهك عمدًا الملكية الفكرية لشخص آخر، وهذا يكلفنا المال، فسوف نأتي إليك ونحصل على هذه الأموال منك"، قال Midjourney. شروط الخدمة ولاية. "قد نقوم أيضًا بأشياء أخرى، مثل محاولة إقناع المحكمة بدفع الرسوم القانونية لدينا. لا تفعل ذلك." ®

الطابع الزمني:

اكثر من السجل