يمكن أن تساعد الصور الاصطناعية نماذج الذكاء الاصطناعي على تعلم التمثيلات المرئية بشكل أكثر دقة مقارنة بالصور الحقيقية، وفقًا لعلماء الكمبيوتر في معهد ماساتشوستس للتكنولوجيا وجوجل. والنتيجة هي شبكات عصبية أفضل في التقاط الصور من الأوصاف المكتوبة.
يكمن جوهر جميع نماذج تحويل النص إلى صورة في قدرتها على تعيين الكائنات إلى كلمات. في ضوء مطالبة إدخال النص - مثل "طفل يحمل بالونًا أحمر في يوم مشمس" على سبيل المثال - يجب عليهم إرجاع صورة تقريبية للوصف. وللقيام بذلك، عليهم أن يتعلموا التمثيلات المرئية لما قد يبدو عليه الطفل والبالون الأحمر واليوم المشمس.
يعتقد فريق MIT-Google أن الشبكات العصبية يمكنها إنشاء صور أكثر دقة من المطالبات بعد تدريبها على الصور المصنوعة بواسطة الذكاء الاصطناعي بدلاً من استخدام اللقطات الحقيقية. ولإثبات ذلك، تطورت المجموعة StableRep، والذي يتعلم كيفية تحويل التسميات التوضيحية المكتوبة إلى صور مطابقة صحيحة من الصور التي تم إنشاؤها بواسطة نموذج Stable Diffusion الشهير مفتوح المصدر لتحويل النص إلى صورة.
بمعنى آخر: استخدام نموذج ذكاء اصطناعي راسخ ومدرب لتدريس نماذج أخرى.
كورقة ما قبل الطباعة للعلماء، تم إصدارها عبر arXiv في نهاية الشهر الماضي، يقول: "مع الصور الاصطناعية فقط، فإن التمثيلات التي تعلمتها StableRep تفوق أداء التمثيلات التي تعلمتها SimCLR وCLIP باستخدام نفس مجموعة المطالبات النصية والصور الحقيقية المقابلة، على مجموعات بيانات واسعة النطاق." SimCLR وCLIP عبارة عن خوارزميات للتعلم الآلي يمكن استخدامها لإنشاء صور من المطالبات النصية.
"عندما نضيف المزيد من الإشراف اللغوي، فإن StableRep المدرب بـ 20 مليون صورة اصطناعية يحقق دقة أفضل من تدريب CLIP بـ 50 مليون صورة حقيقية"، تتابع الورقة.
تلتقط خوارزميات التعلم الآلي العلاقات بين ميزات الأشياء ومعاني الكلمات كمجموعة من الأرقام. باستخدام StableRep، يمكن للباحثين التحكم في هذه العملية بعناية أكبر، من خلال تدريب نموذج على صور متعددة تم إنشاؤها بواسطة Stable Diffusion في نفس الموجه. ويعني ذلك أن النموذج يمكنه تعلم تمثيلات مرئية أكثر تنوعًا، ويمكنه رؤية الصور التي تتطابق مع المطالبات بشكل أوثق من غيرها.
أعتقد أنه سيكون لدينا نظام بيئي يضم بعض النماذج المدربة على البيانات الحقيقية، وبعضها على البيانات الاصطناعية
"نحن نقوم بتدريس النموذج لمعرفة المزيد عن المفاهيم عالية المستوى من خلال السياق والتباين، وليس فقط تغذيته بالبيانات،" ليجي فان، الباحث الرئيسي في الدراسة وطالب دكتوراه في الهندسة الكهربائية في معهد ماساتشوستس للتكنولوجيا، شرح هذا الاسبوع. "عند استخدام صور متعددة، جميعها تم إنشاؤها من نفس النص، ويتم التعامل معها جميعًا على أنها تصوير لنفس الشيء الأساسي، يتعمق النموذج بشكل أعمق في المفاهيم الكامنة وراء الصور - على سبيل المثال الكائن - وليس فقط وحدات البكسل الخاصة بها."
كما هو مذكور أعلاه، يعني هذا النهج أيضًا أنه يمكنك استخدام عدد أقل من الصور الاصطناعية لتدريب شبكتك العصبية مقارنة بالصور الحقيقية، والحصول على نتائج أفضل – وهو أمر مربح للجانبين لمطوري الذكاء الاصطناعي.
وتعني أساليب مثل StableRep أن نماذج تحويل النص إلى صورة قد يتم تدريبها يومًا ما على البيانات الاصطناعية. سيسمح للمطورين بالاعتماد بشكل أقل على الصور الحقيقية، وقد يكون ضروريًا إذا استنفدت محركات الذكاء الاصطناعي الموارد المتاحة عبر الإنترنت.
قال فيليب إيزولا، المؤلف المشارك للورقة البحثية والأستاذ المشارك في رؤية الكمبيوتر في معهد ماساتشوستس للتكنولوجيا: "أعتقد أن [تدريب نماذج الذكاء الاصطناعي على الصور الاصطناعية] سيكون شائعًا بشكل متزايد". السجل. "أعتقد أنه سيكون لدينا نظام بيئي لبعض النماذج المدربة على البيانات الحقيقية، وبعضها على البيانات الاصطناعية، وربما سيتم تدريب معظم النماذج على كليهما."
من الصعب الاعتماد فقط على الصور التي ينشئها الذكاء الاصطناعي لأن جودتها ودقتها غالبًا ما تكون أسوأ من الصور الحقيقية. نماذج تحويل النص إلى صورة التي تولدها محدودة بطرق أخرى أيضًا. لا يُنتج Stable Diffusion دائمًا صورًا متوافقة مع المطالبات النصية.
وحذر إيزولا من أن استخدام الصور الاصطناعية لا يتجنب المشكلة المحتملة لانتهاك حقوق الطبع والنشر أيضًا، حيث من المحتمل أن تكون النماذج التي تولدها قد تم تدريبها على مواد محمية.
"يمكن أن تتضمن البيانات الاصطناعية نسخًا دقيقة من بيانات حقوق الطبع والنشر. ومع ذلك، توفر البيانات الاصطناعية أيضًا فرصًا جديدة للتغلب على مشكلات الملكية الفكرية والخصوصية، لأنه من المحتمل أن نتدخل فيها، عن طريق تحرير النموذج التوليدي لإزالة السمات الحساسة.
وحذر الفريق أيضًا من أن أنظمة التدريب على الصور المولدة بواسطة الذكاء الاصطناعي يمكن أن تؤدي إلى تفاقم التحيزات التي تعلمها نموذج تحويل النص إلى صورة الأساسي. ®
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://go.theregister.com/feed/www.theregister.com/2023/11/22/texttoimage_models_mit/
- :يكون
- :ليس
- 20
- 50
- a
- القدرة
- من نحن
- فوق
- وفقا
- دقة
- دقيق
- بدقة
- يحقق
- تضيف
- بعد
- AI
- نماذج الذكاء الاصطناعى
- خوارزميات
- الكل
- السماح
- أيضا
- دائما
- an
- و
- نهج
- هي
- حول
- مجموعة
- AS
- محام
- At
- سمات
- متاح
- BE
- لان
- وراء
- يجري
- يعتقد
- أفضل
- ما بين
- التحيزات
- على حد سواء
- by
- CAN
- تعليق
- أسر
- بعناية
- طفل
- عن كثب
- CO
- مؤلف مشارك
- مشترك
- مقارنة
- الكمبيوتر
- رؤية الكمبيوتر
- المفاهيم
- سياق الكلام
- تواصل
- مراقبة
- نسخ
- حقوق الطبع والنشر
- التعدي على حق المؤلف
- تصحيح
- المقابلة
- استطاع
- البيانات
- قواعد البيانات
- يوم
- أعمق
- شرح
- وصف
- المتقدمة
- المطورين
- صعبة
- التوزيع
- عدة
- do
- لا توجد الآن
- النظام الإيكولوجي
- التحرير
- بكفاءة
- إما
- الهندسة الكهربائية
- النهاية
- الهندسة
- محركات
- أنشئ
- الأثير (ETH)
- تفاقم
- مثال
- شرح
- مخلص
- زائف
- مروحة
- المميزات
- تغذية
- أقل
- في حالة
- تبدأ من
- إضافي
- توليد
- ولدت
- توليد
- توليدي
- نموذج توليدي
- دولار فقط واحصل على خصم XNUMX% على جميع
- الحصول على
- معطى
- شراء مراجعات جوجل
- تجمع
- يملك
- he
- قلب
- مساعدة
- رفيع المستوى
- عقد
- كيفية
- كيفية
- لكن
- HTTPS
- i
- if
- صورة
- صور
- in
- في أخرى
- تتضمن
- على نحو متزايد
- انتهاك
- إدخال
- تدخل
- إلى
- IP
- قضية
- مسائل
- IT
- JPG
- م
- لغة
- كبير
- اسم العائلة
- قيادة
- تعلم
- تعلم
- أقل
- مثل
- على الأرجح
- محدود
- بحث
- يبدو مثل
- جعل
- القيام ب
- رسم خريطة
- مباراة
- المواد
- مايو..
- يمكن
- تعني
- المعاني
- يعني
- ربما
- مليون
- معهد ماساتشوستس للتكنولوجيا
- نموذج
- عارضات ازياء
- شهر
- الأكثر من ذلك
- أكثر
- متعدد
- ضروري
- حاجة
- شبكة
- الشبكات
- عصبي
- الشبكة العصبية
- الشبكات العصبية
- جديد
- وأشار
- أرقام
- موضوع
- الأجسام
- of
- غالبا
- on
- ONE
- منها
- online
- جاكيت
- المصدر المفتوح
- الفرص
- معارض
- طلب
- أخرى
- أخرى
- ورق
- أداء
- رسالة دكتوراه
- الصور
- لوحات حائط
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- الرائج
- محتمل
- يحتمل
- خصوصية
- عملية المعالجة
- إنتاج
- البروفيسور
- مطالبات
- محمي
- ويوفر
- يضع
- جودة
- RE
- حقيقي
- أحمر
- العلاقات
- صدر
- اعتمد
- إزالة
- الباحث
- الباحثين
- دقة الشاشة
- الموارد
- نتيجة
- النتائج
- عائد أعلى
- s
- نفسه
- قول
- حجم
- العلماء
- انظر تعريف
- حساس
- طقم
- ينبغي
- منذ
- فقط
- بعض
- مصدر
- مستقر
- طالب
- دراسة
- هذه
- إشراف
- تجاوز
- اصطناعي
- البيانات الاصطناعية
- أنظمة
- T
- التدريس
- فريق
- نص
- من
- أن
- •
- من مشاركة
- منهم
- هم
- شيء
- اعتقد
- هذا الأسبوع
- عبر
- إلى
- قال
- جدا
- قطار
- متدرب
- قادة الإيمان
- المعالجة
- منعطف أو دور
- التي تقوم عليها
- تستخدم
- مستعمل
- استخدام
- بواسطة
- رؤيتنا
- بصري
- طرق
- we
- أسبوع
- كان
- ابحث عن
- متى
- التي
- سوف
- الفوز للجميع
- مع
- كلمات
- أسوأ
- سوف
- مكتوب
- لصحتك!
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت