مدل‌های تبدیل متن به تصویر با داده‌های جعلی کارآمدتر یاد می‌گیرند

مدل‌های تبدیل متن به تصویر با داده‌های جعلی کارآمدتر یاد می‌گیرند

گره منبع: 2974582

به گفته دانشمندان کامپیوتر MIT و گوگل، تصاویر مصنوعی می توانند به مدل های هوش مصنوعی کمک کنند تا نمایش های بصری را با دقت بیشتری در مقایسه با عکس های واقعی یاد بگیرند. نتیجه شبکه های عصبی است که در ساختن تصاویر از توضیحات نوشته شده شما بهتر عمل می کنند.

قلب همه مدل‌های تبدیل متن به تصویر، توانایی آن‌ها در نگاشت اشیا به کلمات است. با توجه به یک پیام متنی ورودی - برای مثال "کودکی که یک بادکنک قرمز را در یک روز آفتابی در دست دارد" - آنها باید تصویری را با توضیحات تقریبی برگردانند. برای انجام این کار، آنها باید بازنمایی های بصری یک کودک، بادکنک قرمز و یک روز آفتابی را یاد بگیرند. 

تیم MIT-Google بر این باور است که شبکه‌های عصبی می‌توانند پس از آموزش بر روی تصاویر ساخته‌شده با هوش مصنوعی، تصاویر دقیق‌تری را از طریق درخواست‌ها تولید کنند، نه استفاده از عکس‌های واقعی. برای نشان دادن این موضوع، گروه توسعه یافت StableRep، که یاد می‌گیرد چگونه شرح‌های نوشته شده توصیفی را به تصاویر متناظر صحیح از تصاویر تولید شده توسط مدل متن‌به تصویر منبع باز محبوب Stable Diffusion تبدیل کند.

به عبارت دیگر: استفاده از یک مدل هوش مصنوعی آموزش‌دیده برای آموزش مدل‌های دیگر.

به عنوان مقاله پیش چاپ دانشمندان، منتشر شده از طریق مانند: arXiv در پایان ماه گذشته، می‌گوید: «با تصاویر صرفاً مصنوعی، بازنمایی‌های آموخته‌شده توسط StableRep از عملکرد نمایش‌های آموخته‌شده توسط SimCLR و CLIP با استفاده از مجموعه‌ای از پیام‌های متنی و تصاویر واقعی مربوطه، در مجموعه داده‌های مقیاس بزرگ، پیشی می‌گیرند». SimCLR و CLIP الگوریتم‌های یادگیری ماشینی هستند که می‌توانند برای ساختن تصاویر از پیام‌های متنی استفاده شوند.

این مقاله ادامه می‌دهد: «وقتی نظارت زبان را بیشتر اضافه می‌کنیم، StableRep که با 20 میلیون تصویر مصنوعی آموزش داده شده است، دقت بهتری نسبت به CLIP آموزش داده شده با 50 میلیون تصویر واقعی به دست می‌آورد.

الگوریتم های یادگیری ماشینی روابط بین ویژگی های اشیاء و معانی کلمات را به صورت آرایه ای از اعداد به تصویر می کشند. با استفاده از StableRep، محققان می‌توانند این فرآیند را با دقت بیشتری کنترل کنند - یک مدل را بر روی تصاویر متعدد ایجاد شده توسط Stable Diffusion در همان اعلان آموزش دهند. این بدان معناست که مدل می‌تواند بازنمایی‌های بصری متنوع‌تری را بیاموزد، و می‌تواند ببیند کدام تصاویر بیشتر از سایرین با درخواست‌ها مطابقت دارند. 

من فکر می‌کنم ما اکوسیستمی از برخی مدل‌ها خواهیم داشت که بر اساس داده‌های واقعی، برخی دیگر روی داده‌های مصنوعی آموزش دیده‌اند

لیجی فن، محقق ارشد این مطالعه و دانشجوی دکترای مهندسی برق در MIT، «ما به مدل آموزش می‌دهیم تا در مورد مفاهیم سطح بالا از طریق زمینه و واریانس بیشتر بیاموزد، نه فقط داده‌های آن را تغذیه کند». توضیح داده شده این هفته. زمانی که از تصاویر متعددی استفاده می‌شود که همگی از یک متن تولید شده‌اند، و همگی به‌عنوان تصویری از یک چیز زیرین تلقی می‌شوند، مدل عمیق‌تر به مفاهیم پشت تصاویر – مثلاً شیء – و نه فقط پیکسل‌های آن‌ها می‌پردازد.

همانطور که در بالا ذکر شد، این رویکرد همچنین به این معنی است که می‌توانید از تصاویر مصنوعی کمتری برای آموزش شبکه عصبی خود نسبت به تصاویر واقعی استفاده کنید و نتایج بهتری بگیرید – که برای توسعه‌دهندگان هوش مصنوعی برد-برد است.

روش‌هایی مانند StableRep به این معنی است که مدل‌های تبدیل متن به تصویر ممکن است روزی بر روی داده‌های مصنوعی آموزش داده شوند. این به توسعه دهندگان این امکان را می دهد که کمتر به تصاویر واقعی اعتماد کنند و اگر موتورهای هوش مصنوعی منابع آنلاین موجود را تخلیه کنند ممکن است ضروری باشد.

فیلیپ ایزولا، یکی از نویسندگان مقاله و دانشیار بینایی کامپیوتر در MIT، گفت: "من فکر می کنم [آموزش مدل های هوش مصنوعی روی تصاویر مصنوعی] به طور فزاینده ای رایج خواهد شد." ثبت نام. من فکر می‌کنم ما اکوسیستمی از برخی مدل‌ها خواهیم داشت که بر روی داده‌های واقعی آموزش داده شده‌اند، برخی بر روی مصنوعی، و شاید اکثر مدل‌ها بر روی هر دو آموزش داده شوند.

تکیه صرف بر تصاویر تولید شده با هوش مصنوعی دشوار است زیرا کیفیت و وضوح آنها اغلب بدتر از عکس های واقعی است. مدل‌های تبدیل متن به تصویر که آنها را تولید می‌کنند از راه‌های دیگر نیز محدود هستند. Stable Diffusion همیشه تصاویری تولید نمی کند که به درخواست های متنی وفادار باشند.

ایزولا هشدار داد که استفاده از تصاویر مصنوعی مشکل بالقوه نقض کپی رایت را نیز برطرف نمی کند، زیرا مدل هایی که آنها را تولید می کنند احتمالاً بر روی مواد محافظت شده آموزش دیده اند.

«داده‌های مصنوعی می‌تواند شامل نسخه‌های دقیقی از داده‌های حق چاپ باشد. با این حال، داده‌های مصنوعی همچنین فرصت‌های جدیدی را برای دور زدن مسائل IP و حریم خصوصی فراهم می‌کند، زیرا ما به طور بالقوه می‌توانیم با ویرایش مدل تولیدی برای حذف ویژگی‌های حساس، در آن مداخله کنیم.»

این تیم همچنین هشدار داد که سیستم‌های آموزشی بر روی تصاویر تولید شده با هوش مصنوعی می‌توانند به طور بالقوه سوگیری‌هایی را که توسط مدل متن به تصویر زیرین آن‌ها آموخته‌اند، تشدید کنند. ®

تمبر زمان:

بیشتر از ثبت نام