تتعلم نماذج تحويل النص إلى صورة بكفاءة أكبر باستخدام البيانات المزيفة

تتعلم نماذج تحويل النص إلى صورة بكفاءة أكبر باستخدام البيانات المزيفة

عقدة المصدر: 2974582

يمكن أن تساعد الصور الاصطناعية نماذج الذكاء الاصطناعي على تعلم التمثيلات المرئية بشكل أكثر دقة مقارنة بالصور الحقيقية، وفقًا لعلماء الكمبيوتر في معهد ماساتشوستس للتكنولوجيا وجوجل. والنتيجة هي شبكات عصبية أفضل في التقاط الصور من الأوصاف المكتوبة.

يكمن جوهر جميع نماذج تحويل النص إلى صورة في قدرتها على تعيين الكائنات إلى كلمات. في ضوء مطالبة إدخال النص - مثل "طفل يحمل بالونًا أحمر في يوم مشمس" على سبيل المثال - يجب عليهم إرجاع صورة تقريبية للوصف. وللقيام بذلك، عليهم أن يتعلموا التمثيلات المرئية لما قد يبدو عليه الطفل والبالون الأحمر واليوم المشمس. 

يعتقد فريق MIT-Google أن الشبكات العصبية يمكنها إنشاء صور أكثر دقة من المطالبات بعد تدريبها على الصور المصنوعة بواسطة الذكاء الاصطناعي بدلاً من استخدام اللقطات الحقيقية. ولإثبات ذلك، تطورت المجموعة StableRep، والذي يتعلم كيفية تحويل التسميات التوضيحية المكتوبة إلى صور مطابقة صحيحة من الصور التي تم إنشاؤها بواسطة نموذج Stable Diffusion الشهير مفتوح المصدر لتحويل النص إلى صورة.

بمعنى آخر: استخدام نموذج ذكاء اصطناعي راسخ ومدرب لتدريس نماذج أخرى.

كورقة ما قبل الطباعة للعلماء، تم إصدارها عبر arXiv في نهاية الشهر الماضي، يقول: "مع الصور الاصطناعية فقط، فإن التمثيلات التي تعلمتها StableRep تفوق أداء التمثيلات التي تعلمتها SimCLR وCLIP باستخدام نفس مجموعة المطالبات النصية والصور الحقيقية المقابلة، على مجموعات بيانات واسعة النطاق." SimCLR وCLIP عبارة عن خوارزميات للتعلم الآلي يمكن استخدامها لإنشاء صور من المطالبات النصية.

"عندما نضيف المزيد من الإشراف اللغوي، فإن StableRep المدرب بـ 20 مليون صورة اصطناعية يحقق دقة أفضل من تدريب CLIP بـ 50 مليون صورة حقيقية"، تتابع الورقة.

تلتقط خوارزميات التعلم الآلي العلاقات بين ميزات الأشياء ومعاني الكلمات كمجموعة من الأرقام. باستخدام StableRep، يمكن للباحثين التحكم في هذه العملية بعناية أكبر، من خلال تدريب نموذج على صور متعددة تم إنشاؤها بواسطة Stable Diffusion في نفس الموجه. ويعني ذلك أن النموذج يمكنه تعلم تمثيلات مرئية أكثر تنوعًا، ويمكنه رؤية الصور التي تتطابق مع المطالبات بشكل أوثق من غيرها. 

أعتقد أنه سيكون لدينا نظام بيئي يضم بعض النماذج المدربة على البيانات الحقيقية، وبعضها على البيانات الاصطناعية

"نحن نقوم بتدريس النموذج لمعرفة المزيد عن المفاهيم عالية المستوى من خلال السياق والتباين، وليس فقط تغذيته بالبيانات،" ليجي فان، الباحث الرئيسي في الدراسة وطالب دكتوراه في الهندسة الكهربائية في معهد ماساتشوستس للتكنولوجيا، شرح هذا الاسبوع. "عند استخدام صور متعددة، جميعها تم إنشاؤها من نفس النص، ويتم التعامل معها جميعًا على أنها تصوير لنفس الشيء الأساسي، يتعمق النموذج بشكل أعمق في المفاهيم الكامنة وراء الصور - على سبيل المثال الكائن - وليس فقط وحدات البكسل الخاصة بها."

كما هو مذكور أعلاه، يعني هذا النهج أيضًا أنه يمكنك استخدام عدد أقل من الصور الاصطناعية لتدريب شبكتك العصبية مقارنة بالصور الحقيقية، والحصول على نتائج أفضل – وهو أمر مربح للجانبين لمطوري الذكاء الاصطناعي.

وتعني أساليب مثل StableRep أن نماذج تحويل النص إلى صورة قد يتم تدريبها يومًا ما على البيانات الاصطناعية. سيسمح للمطورين بالاعتماد بشكل أقل على الصور الحقيقية، وقد يكون ضروريًا إذا استنفدت محركات الذكاء الاصطناعي الموارد المتاحة عبر الإنترنت.

قال فيليب إيزولا، المؤلف المشارك للورقة البحثية والأستاذ المشارك في رؤية الكمبيوتر في معهد ماساتشوستس للتكنولوجيا: "أعتقد أن [تدريب نماذج الذكاء الاصطناعي على الصور الاصطناعية] سيكون شائعًا بشكل متزايد". السجل. "أعتقد أنه سيكون لدينا نظام بيئي لبعض النماذج المدربة على البيانات الحقيقية، وبعضها على البيانات الاصطناعية، وربما سيتم تدريب معظم النماذج على كليهما."

من الصعب الاعتماد فقط على الصور التي ينشئها الذكاء الاصطناعي لأن جودتها ودقتها غالبًا ما تكون أسوأ من الصور الحقيقية. نماذج تحويل النص إلى صورة التي تولدها محدودة بطرق أخرى أيضًا. لا يُنتج Stable Diffusion دائمًا صورًا متوافقة مع المطالبات النصية.

وحذر إيزولا من أن استخدام الصور الاصطناعية لا يتجنب المشكلة المحتملة لانتهاك حقوق الطبع والنشر أيضًا، حيث من المحتمل أن تكون النماذج التي تولدها قد تم تدريبها على مواد محمية.

"يمكن أن تتضمن البيانات الاصطناعية نسخًا دقيقة من بيانات حقوق الطبع والنشر. ومع ذلك، توفر البيانات الاصطناعية أيضًا فرصًا جديدة للتغلب على مشكلات الملكية الفكرية والخصوصية، لأنه من المحتمل أن نتدخل فيها، عن طريق تحرير النموذج التوليدي لإزالة السمات الحساسة.

وحذر الفريق أيضًا من أن أنظمة التدريب على الصور المولدة بواسطة الذكاء الاصطناعي يمكن أن تؤدي إلى تفاقم التحيزات التي تعلمها نموذج تحويل النص إلى صورة الأساسي. ®

الطابع الزمني:

اكثر من السجل