ایجاد انقلابی در Roblox با هوش مصنوعی مولد - وبلاگ Roblox

ایجاد انقلابی در Roblox با هوش مصنوعی مولد - وبلاگ Roblox

گره منبع: 2874293

اوایل امسال، ما خود را به اشتراک گذاشتیم دید برای هوش مصنوعی مولد (AI) در Roblox و ابزارهای جدید بصری که هر کاربر را قادر می‌سازد تا به یک خالق تبدیل شود. از آنجایی که این ابزارها به سرعت در سراسر صنعت تکامل می‌یابند، من می‌خواستم برخی به‌روزرسانی‌ها را در مورد پیشرفتی که به دست آورده‌ایم، راهی که هنوز برای دموکراسی‌سازی ایجاد هوش مصنوعی مولد در پیش است و چرا فکر می‌کنیم هوش مصنوعی مولد عنصری حیاتی برای جایی که Roblox می‌رود، ارائه کنم. 

پیشرفت در هوش مصنوعی مولد و مدل‌های زبان بزرگ (LLM) فرصتی باورنکردنی برای باز کردن آینده تجربیات همهجانبه با امکان ایجاد آسان‌تر و سریع‌تر در عین حفظ ایمنی و بدون نیاز به منابع محاسباتی عظیم، ارائه می‌کند. علاوه بر این، پیشرفت‌ها در مدل‌های هوش مصنوعی که چندوجهی هستند، به این معنی که آنها با انواع مختلفی از محتوا - مانند تصاویر، کد، متن، مدل‌های سه‌بعدی و صدا آموزش داده می‌شوند - راه را برای پیشرفت‌های جدید در ابزارهای ایجاد باز می‌کند. همین مدل‌ها شروع به تولید خروجی‌های چندوجهی نیز می‌کنند، مانند مدلی که می‌تواند یک خروجی متن ایجاد کند، و همچنین برخی تصاویر بصری که متن را تکمیل می‌کنند. ما این پیشرفت‌های هوش مصنوعی را فرصتی عظیم برای افزایش همزمان کارایی برای سازندگان با تجربه‌تر می‌بینیم و حتی افراد بیشتری را قادر می‌سازیم تا ایده‌های عالی را در Roblox زنده کنند. در امسال کنفرانس توسعه دهندگان Roblox (RDC)ما چندین ابزار جدید را معرفی کردیم که هوش مصنوعی مولد را به استودیوی Roblox و فراتر از آن می‌آورند تا به هر کسی در مقیاس Roblox کمک کند سریع‌تر انجام دهد، سریع‌تر تکرار کند و مهارت‌های خود را برای ایجاد محتوای بهتر تقویت کند. 

دستیار Roblox

Roblox همیشه ابزارهایی را در اختیار سازندگان قرار داده است خدماتو پشتیبانی آنها نیاز به ایجاد تجربیات سه بعدی همهجانبه دارند. در همان زمان، ما شاهدیم که سازندگان ما شروع به استفاده از هوش مصنوعی مولد و محاوره‌ای شخص ثالث برای کمک به ایجاد آن‌ها کرده‌اند. در حالی که برای کمک به کاهش حجم کاری سازنده مفید هستند، این نسخه‌های آماده برای گردش‌های کاری Roblox سرتاسر طراحی نشده‌اند یا روی کد، عامیانه و زبان Roblox آموزش دیده‌اند. این بدان معناست که سازندگان برای استفاده از این نسخه‌ها برای ایجاد محتوا برای Roblox با کار اضافی بیشتری روبرو هستند. ما در حال کار بر روی راه هایی برای آوردن ارزش این ابزارها به Roblox Studio بوده ایم و در RDC نمونه اولیه Assistant را به اشتراک گذاشته ایم.

دستیار هوش مصنوعی مکالمه ای ما است که به سازندگان در تمام سطوح مهارت امکان می دهد زمان کمتری را برای کارهای روزمره و تکراری مربوط به خلق کردن و زمان بیشتری را برای فعالیت های با ارزش مانند روایت، بازی، و طراحی تجربه صرف کنند. Roblox به لطف دسترسی ما به مجموعه بزرگی از مدل‌های سه بعدی عمومی برای آموزش، توانایی ما در ادغام یک مدل با APIهای پلت فرم و مجموعه رو به رشد راه‌حل‌های هوش مصنوعی نوآورانه، موقعیت منحصربه‌فردی برای ساخت این مدل هوش مصنوعی مکالمه‌ای برای جهان‌های سه‌بعدی فراگیر دارد. . سازندگان قادر خواهند بود از دستورهای متنی زبان طبیعی برای ایجاد صحنه‌ها، ویرایش مدل‌های سه بعدی و اعمال رفتارهای تعاملی برای اشیا استفاده کنند. دستیار از سه مرحله ایجاد پشتیبانی می کند: یادگیری، کدگذاری و ساخت:

  • یادگیری: خواه یک سازنده کاملاً تازه کار در Roblox باشد یا یک کهنه کار باتجربه، Roblox Assistant به پاسخگویی به سؤالات در طیف گسترده ای از سطوح با استفاده از زبان طبیعی کمک می کند. 
  • کدگذاری: دستیار موارد اخیر ما را گسترش خواهد داد کمک کد ابزار برای مثال، توسعه‌دهندگان می‌توانند از دستیار بخواهند کدشان را بهبود بخشد، بخشی از کد را توضیح دهد، یا به اشکال‌زدایی کمک کند و برای کدهایی که به درستی کار نمی‌کند، راه‌حل‌هایی پیشنهاد کند.
  • ساختمان: Assistant به سازندگان کمک می کند تا به سرعت ایده های جدید را نمونه سازی کنند. به عنوان مثال، یک خالق جدید می‌تواند صحنه‌های کاملی را تولید کند و نسخه‌های مختلف را به سادگی با تایپ کردن دستوری مانند «افزودن چند چراغ خیابان در امتداد این جاده» یا «یک جنگل با انواع درختان بسازید» امتحان کند. حالا چند بوته و گل اضافه کنید.»

کار با Assistant مشارکتی، تعاملی و تکراری خواهد بود، و سازندگان را قادر می‌سازد تا بازخورد ارائه کنند و دستیار برای ارائه راه‌حل مناسب کار کند. مانند داشتن یک خالق خبره به عنوان شریک است که می توانید ایده های خود را از بین ببرید و ایده ها را امتحان کنید تا زمانی که به درستی برسید.

frameborder=”0″ allow=”شتاب سنج; پخش خودکار؛ clipboard-write; رسانه های رمزگذاری شده ژیروسکوپ; تصویر در تصویر؛ وب اشتراک گذاری” allowfullscreen>

برای اینکه Assistant را به بهترین شریکی تبدیل کنیم، اعلامیه دیگری در RDC دادیم: از توسعه دهندگان دعوت کردیم تا انتخاب کردن برای کمک به داده های اسکریپت Luau ناشناس خود. این داده‌های اسکریپت کمک می‌کند ابزارهای هوش مصنوعی ما، مانند Code Assist و Assistant، در پیشنهاد و ایجاد کد کارآمدتر به‌طور قابل‌توجهی بهتر شوند و به توسعه‌دهندگان Roblox که از آن‌ها استفاده می‌کنند، برگردند. علاوه بر این، اگر توسعه‌دهندگان تصمیم بگیرند که فراتر از Roblox به اشتراک بگذارند، داده‌های اسکریپت آنها به مجموعه داده‌ای که در دسترس اشخاص ثالث قرار گرفته است اضافه می‌شود تا ابزارهای چت هوش مصنوعی خود را آموزش دهند تا بتوانند کد Luau را بهتر پیشنهاد کنند و به توسعه‌دهندگان Luau در همه جا پاسخ دهند.

برای واضح بودن، از طریق تحقیقات جامع کاربر و مکالمات شفاف با توسعه دهندگان برتر، ما این را طوری طراحی کرده‌ایم که به صورت شرکتی انتخاب شود و به اطمینان حاصل شود که همه شرکت‌کنندگان متوجه آنچه برنامه مستلزم آن است می‌شوند و رضایت دارند. به عنوان تشکر از کسانی که تصمیم گرفتند در اشتراک گذاری داده های اسکریپت با Roblox شرکت کنند، ما به نسخه های قدرتمندتر Assistant و Code Assist که توسط این مدل آموزش دیده توسط جامعه ارائه می شوند، دسترسی خواهیم داشت. کسانی که شرکت نکرده‌اند، همچنان به نسخه موجود دستیار و Code Assist دسترسی خواهند داشت.

ایجاد آواتار آسان تر 

در نهایت، ما می خواهیم که هر یک از 65.5 میلیون کاربر روزانه خود آواتاری داشته باشند که واقعاً آنها را نشان دهد و بیانگر شخصیت آنها باشد. ما اخیراً این قابلیت را برای اعضای برنامه UGC خود منتشر کردیم هر دو بدنه آواتار و سرهای مستقل را ایجاد و بفروشید. امروزه، این فرآیند نیاز به دسترسی به استودیو یا برنامه UGC ما، سطح نسبتاً بالایی از مهارت، و چندین روز کار برای فعال کردن حالت چهره، حرکت بدن، تقلب سه بعدی و غیره دارد. تاریخ، تعداد گزینه های موجود را محدود کرد. ما می خواهیم حتی فراتر برویم.

برای اینکه همه در Roblox قادر به داشتن یک آواتار شخصی و گویا باشند، باید آواتارها را برای تولید و سفارشی کردن بسیار آسان کنیم. در RDC، ابزار جدیدی را معرفی کردیم که در سال 2024 منتشر می‌کنیم که امکان ایجاد آسان آواتار سفارشی از یک تصویر یا از چندین تصویر را فراهم می‌کند. با استفاده از این ابزار، هر سازنده ای که به استودیو یا برنامه UGC ما دسترسی دارد، می تواند یک تصویر را آپلود کند، یک آواتار برای آنها ایجاد کند و سپس آن را به دلخواه تغییر دهد. دراز مدت، ما قصد داریم این را مستقیماً در تجربیات Roblox نیز در دسترس قرار دهیم.

برای ایجاد این امکان، ما در حال آموزش مدل های هوش مصنوعی در طرحواره آواتار Roblox و مجموعه ای از مدل های آواتار سه بعدی متعلق به Roblox هستیم. یک رویکرد اهرمی دارد تحقیق برای تولید آواتارهای سبک سه بعدی از تصاویر دو بعدی. ما همچنین به دنبال استفاده از مدل‌های انتشار متن به تصویر از پیش آموزش‌دیده برای تقویت داده‌های آموزشی سه بعدی محدود با تکنیک‌های مولد دوبعدی، و استفاده از شبکه تولید سه بعدی مبتنی بر شبکه متخاصم (GAN) برای آموزش هستیم. در نهایت، ما در حال کار بر روی استفاده هستیم ControlNet لایه بندی در حالت های از پیش تعریف شده برای هدایت تصاویر چند نمای حاصل از آواتارها. 

این فرآیند یک مش سه بعدی برای آواتار تولید می کند. بعد، ما از 3D استفاده می کنیم تحقیق تقسیم بندی معنایی، آموزش داده شده بر روی حالت های آواتار سه بعدی، برای گرفتن آن مش سه بعدی و تنظیم آن برای افزودن ویژگی های مناسب صورت، قفس، ریگ، و بافت، در اصل، ایجاد مش سه بعدی ایستا به یک آواتار Roblox. در نهایت، یک ابزار ویرایش مش به کاربران این امکان را می دهد که مدل را تغییر دهند و تنظیم کنند تا بیشتر شبیه نسخه ای باشد که تصور می کنند. و همه اینها به سرعت - در عرض چند دقیقه - اتفاق می‌افتد و یک آواتار جدید ایجاد می‌کند که می‌تواند به Roblox وارد شود و در یک تجربه استفاده شود.

frameborder=”0″ allow=”شتاب سنج; پخش خودکار؛ clipboard-write; رسانه های رمزگذاری شده ژیروسکوپ; تصویر در تصویر؛ وب اشتراک گذاری” allowfullscreen>

تعدیل ارتباطات صوتی

هوش مصنوعی برای ما فقط ایجاد نیست، بلکه سیستم بسیار کارآمدتری برای تضمین جامعه ای متنوع، ایمن و مدنی در مقیاس است. همانطور که ما شروع به ارائه ویژگی های صوتی جدید، از جمله چت صوتی و Roblox Connect، تماس جدید به عنوان ویژگی آواتار شما، و API های اعلام شده در RDC می کنیم، با چالش جدیدی روبرو هستیم - تعدیل زبان گفتاری در زمان واقعی. استاندارد فعلی صنعت برای این فرآیندی است که به نام تشخیص خودکار گفتار (ASR) شناخته می‌شود، که اساساً یک فایل صوتی را می‌گیرد، آن را رونویسی می‌کند تا آن را به متن تبدیل کند، سپس متن را برای جستجوی زبان، کلمات کلیدی و غیره نامناسب تجزیه و تحلیل می‌کند. 

این برای شرکت‌هایی که از آن در مقیاس کوچک‌تر استفاده می‌کنند به خوبی کار می‌کند، اما همانطور که استفاده از همین فرآیند ASR را برای تعدیل ارتباط صوتی بررسی کردیم، به سرعت متوجه شدیم که در مقیاس ما دشوار و ناکارآمد است. این رویکرد همچنین اطلاعات فوق‌العاده ارزشمندی را که در حجم و لحن صدای گوینده و همچنین زمینه وسیع‌تر مکالمه رمزگذاری شده است، از دست می‌دهد. از میلیون‌ها دقیقه مکالمه‌ای که هر روز باید به زبان‌های مختلف رونویسی کنیم، تنها درصد بسیار کمی حتی احتمالاً چیزی نامناسب به نظر می‌رسد. و همانطور که ما به مقیاس‌بندی ادامه می‌دهیم، آن سیستم به قدرت محاسباتی بیشتر و بیشتری برای ادامه دادن نیاز دارد. بنابراین، با ایجاد خط لوله‌ای که مستقیماً از محتوای صوتی زنده به برچسب‌گذاری می‌رود تا نشان دهد که آیا خط‌مشی‌های ما را نقض می‌کند یا خیر، نگاهی دقیق‌تر به این موضوع انداختیم که چگونه می‌توانیم این کار را به‌طور مؤثرتر انجام دهیم.

در نهایت، ما توانستیم یک سیستم تشخیص صدای سفارشی داخلی با استفاده از ASR برای طبقه بندی مجموعه داده های صوتی داخلی خود بسازیم، سپس از آن داده های صوتی طبقه بندی شده برای آموزش سیستم استفاده کنیم. به طور خاص، برای آموزش این سیستم جدید، ما با صدا شروع می کنیم و یک رونوشت ایجاد می کنیم. سپس رونوشت را از طریق سیستم فیلتر متن Roblox خود اجرا می کنیم تا صدا را طبقه بندی کنیم. این سیستم فیلتر متن در تشخیص زبان ناقض خط مشی در Roblox بسیار عالی است، زیرا ما سال هاست که همین سیستم فیلتر را بر روی عامیانه، اختصارات و زبان خاص Roblox بهینه سازی کرده ایم. در پایان این لایه‌های آموزشی، مدلی داریم که می‌تواند نقض خط‌مشی را مستقیماً از طریق صدا در زمان واقعی شناسایی کند.

در حالی که این سیستم توانایی تشخیص کلمات کلیدی خاص مانند فحاشی را دارد، نقض خط‌مشی به ندرت فقط یک کلمه است. یک کلمه اغلب می تواند در یک زمینه مشکل ساز به نظر برسد و در یک زمینه متفاوت بسیار خوب به نظر برسد. اساساً، این نوع تخلفات شامل آنچه می گویید، نحوه بیان آن و زمینه ای که اظهارات در آن بیان می شود، می شود.

برای درک بهتر زمینه، از قدرت بومی معماری مبتنی بر ترانسفورماتور استفاده می‌کنیم که در خلاصه‌سازی توالی بسیار خوب است. می‌تواند دنباله‌ای از داده‌ها را بگیرد، مانند یک جریان صوتی، و آن را برای شما خلاصه کند. این معماری ما را قادر می‌سازد تا دنباله‌های صوتی طولانی‌تری را حفظ کنیم تا بتوانیم نه تنها کلمات، بلکه متن و لحن‌ها را نیز تشخیص دهیم. هنگامی که همه این عناصر با هم جمع شدند، سیستم نهایی را خواهیم داشت که در آن ورودی صدا و خروجی یک طبقه بندی است - خط مشی را نقض می کند یا نمی کند. این سیستم می‌تواند کلمات کلیدی و عبارات نقض‌کننده خط‌مشی، و همچنین لحن، احساسات و سایر زمینه‌هایی را که برای تعیین هدف مهم هستند، شناسایی کند. این سیستم جدید که گفتار نقض کننده خط مشی را مستقیماً از طریق صدا تشخیص می دهد، به طور قابل توجهی کارآمدتر از سیستم ASR سنتی است، که مقیاس آن را بسیار آسان تر می کند زیرا ما همچنان به تصور مجدد نحوه گردهمایی افراد ادامه می دهیم.

ما همچنین به روش جدیدی نیاز داشتیم تا به کسانی که در ابزارهای ارتباط صوتی ما هستند از پیامدهای بالقوه این نوع زبان هشدار دهیم. با این سیستم تشخیص نوآورانه که در اختیار داریم، اکنون در حال آزمایش راه‌هایی برای تأثیرگذاری بر رفتار آنلاین برای حفظ یک محیط امن هستیم. ما می دانیم که برخی اوقات افراد به طور ناخواسته خط مشی های ما را نقض می کنند و می خواهیم بدانیم که آیا یادآوری گاه به گاه ممکن است به جلوگیری از تخلفات بیشتر کمک کند. برای کمک به این امر، ما در حال آزمایش بازخورد بلادرنگ کاربر از طریق اعلان‌ها هستیم. اگر سیستم تشخیص دهد که شما چند بار چیزی گفته‌اید که خط‌مشی‌های ما را نقض می‌کند، یک اعلان پاپ‌آپ روی صفحه نمایش شما نشان می‌دهیم که به شما اطلاع می‌دهد که زبان شما خط‌مشی‌های ما را نقض می‌کند و شما را برای اطلاعات بیشتر به خط‌مشی‌های ما هدایت می‌کند.

اعلان‌های جریان صوتی تنها یکی از عناصر سیستم تعدیل هستند. ما همچنین به الگوهای رفتاری روی پلتفرم و همچنین شکایات دیگران در Roblox نگاه می‌کنیم تا تصمیمات اعتدال کلی خود را هدایت کنیم. مجموع این سیگنال‌ها می‌تواند منجر به عواقب قوی‌تری شود، از جمله لغو دسترسی به ویژگی‌های صوتی، یا ممنوعیت کامل از پلتفرم برای تخلفات جدی‌تر. ایمن و مدنی نگه داشتن جامعه ما بسیار مهم است زیرا این پیشرفت ها در مدل های هوش مصنوعی چندوجهی، هوش مصنوعی مولد، و LLM ها گرد هم آمده اند تا ابزارها و قابلیت های جدید باورنکردنی را برای سازندگان فراهم کنند. 

ما معتقدیم که ارائه این ابزارها به سازندگان، هم مانع ورود سازندگان کم‌تجربه‌تر را کاهش می‌دهد و هم سازندگان با تجربه‌تر را از وظایف خسته‌کننده‌تر این فرآیند رها می‌کند. این به آنها اجازه می دهد تا زمان بیشتری را برای جنبه های اختراعی تنظیم دقیق و ایده پردازی صرف کنند. هدف ما از همه این‌ها این است که همه را در همه جا قادر کنیم ایده‌های خود را زنده کنند و تنوع آواتارها، آیتم‌ها و تجربیات موجود در Roblox را به میزان زیادی افزایش دهیم. ما هم هستیم به اشتراک گذاری اطلاعات و ابزار برای کمک به محافظت از خلاقیت های جدید

ما در حال حاضر احتمالات شگفت انگیزی را تصور می کنیم: فرض کنید شخصی می تواند یک آواتار doppelganger را مستقیماً از یک عکس ایجاد کند، سپس می تواند آواتار خود را سفارشی کند تا آنها را بلندتر کند یا آنها را به سبک انیمه رندر کند. یا می‌توانند با درخواست از Assistant برای اضافه کردن ماشین‌ها، ساختمان‌ها و مناظر، تنظیم نور یا شرایط باد یا تغییر زمین، تجربه‌ای را ایجاد کنند. از آنجا، آنها می توانند فقط با تایپ کردن به جلو و عقب با Assistant، موارد را اصلاح کنند. ما می دانیم که واقعیت آنچه مردم با این ابزارها خلق می کنند، با در دسترس قرار گرفتن آنها، بسیار فراتر از آن چیزی است که ما حتی می توانیم تصور کنیم.

تمبر زمان:

بیشتر از Roblox