إحداث ثورة في الإبداع على Roblox باستخدام الذكاء الاصطناعي التوليدي - مدونة Roblox

إحداث ثورة في الإبداع على Roblox باستخدام الذكاء الاصطناعي التوليدي – مدونة Roblox

عقدة المصدر: 2874293

في وقت سابق من هذا العام، شاركنا رؤيتنا للذكاء الاصطناعي التوليدي (AI) على Roblox والأدوات الجديدة البديهية التي ستمكن كل مستخدم من أن يصبح مبدعًا. نظرًا لأن هذه الأدوات تتطور بسرعة عبر الصناعة، أردت تقديم بعض التحديثات حول التقدم الذي أحرزناه، والطريق الذي لا يزال أمامنا لإضفاء الطابع الديمقراطي على إنشاء الذكاء الاصطناعي التوليدي، ولماذا نعتقد أن الذكاء الاصطناعي التوليدي هو عنصر حاسم في الاتجاه الذي تتجه إليه Roblox. 

تقدم التطورات في الذكاء الاصطناعي التوليدي ونماذج اللغات الكبيرة (LLMs) فرصة مذهلة لفتح مستقبل التجارب الغامرة من خلال تمكين الإنشاء بشكل أسهل وأسرع مع الحفاظ على الأمان ودون الحاجة إلى موارد حوسبة ضخمة. علاوة على ذلك، فإن التقدم في نماذج الذكاء الاصطناعي المتعددة الوسائط، مما يعني أنها مدربة على أنواع متعددة من المحتوى - مثل الصور والتعليمات البرمجية والنص والنماذج ثلاثية الأبعاد والصوت - يفتح الباب أمام تطورات جديدة في أدوات الإنشاء. بدأت هذه النماذج نفسها أيضًا في إنتاج مخرجات متعددة الوسائط، مثل النموذج الذي يمكنه إنشاء مخرجات نصية، بالإضافة إلى بعض العناصر المرئية التي تكمل النص. نحن نرى أن اختراقات الذكاء الاصطناعي هذه تمثل فرصة هائلة لزيادة الكفاءة في نفس الوقت للمبدعين الأكثر خبرة ولتمكين المزيد من الأشخاص من جلب أفكار رائعة إلى الحياة على Roblox. في هذا العام مؤتمر مطوري Roblox (RDC)، أعلنا عن العديد من الأدوات الجديدة التي ستجلب الذكاء الاصطناعي التوليدي إلى Roblox Studio وخارجه لمساعدة أي شخص على التوسع في Roblox بشكل أسرع، والتكرار بسرعة أكبر، وزيادة مهاراته لإنشاء محتوى أفضل. 

مساعد روبلوكس

لقد زودت Roblox المبدعين دائمًا بالأدوات، الخدماتو الدعم إنهم بحاجة إلى بناء تجارب ثلاثية الأبعاد غامرة. وفي الوقت نفسه، رأينا المبدعين لدينا يبدأون في استخدام الذكاء الاصطناعي التوليدي والمحادثي التابع لجهات خارجية لمساعدتهم على الإبداع. على الرغم من أنها مفيدة للمساعدة في تقليل عبء عمل المنشئ، إلا أن هذه الإصدارات الجاهزة لم يتم تصميمها لسير عمل Roblox الشامل أو لم يتم تدريبها على كود Roblox واللغة العامية واللغة. وهذا يعني أن منشئي المحتوى يواجهون عملاً إضافيًا كبيرًا لاستخدام هذه الإصدارات لإنشاء محتوى لـ Roblox. لقد عملنا على إيجاد طرق لجلب قيمة هذه الأدوات إلى Roblox Studio، وفي RDC شاركنا مثالًا مبكرًا للمساعد.

المساعد هو الذكاء الاصطناعي للمحادثة الذي يمكّن المبدعين من جميع مستويات المهارة من قضاء وقت أقل بكثير في المهام الدنيوية والمتكررة التي ينطوي عليها الإنشاء والمزيد من الوقت في الأنشطة ذات القيمة العالية، مثل السرد واللعب وتصميم التجربة. تتمتع Roblox بموقع فريد لبناء نموذج الذكاء الاصطناعي للمحادثة هذا لعوالم ثلاثية الأبعاد غامرة، وذلك بفضل وصولنا إلى مجموعة كبيرة من النماذج ثلاثية الأبعاد العامة للتدريب عليها، وقدرتنا على دمج النموذج مع واجهات برمجة تطبيقات النظام الأساسي لدينا، ومجموعتنا المتنامية من حلول الذكاء الاصطناعي المبتكرة . سيتمكن منشئو المحتوى من استخدام المطالبات النصية باللغة الطبيعية لإنشاء مشاهد وتحرير نماذج ثلاثية الأبعاد وتطبيق السلوكيات التفاعلية على الكائنات. سيدعم المساعد مراحل الإنشاء الثلاث: التعلم والبرمجة والبناء:

  • تعلم: سواء كان منشئ المحتوى جديدًا تمامًا في التطوير على Roblox أو مخضرمًا، سيساعدك Roblox Assistant في الإجابة على الأسئلة عبر مجموعة واسعة من الأسطح باستخدام اللغة الطبيعية. 
  • الترميز: سوف يتوسع المساعد في أعمالنا الأخيرة مساعدة التعليمات البرمجية أداة. على سبيل المثال، يمكن للمطورين أن يطلبوا من المساعد تحسين التعليمات البرمجية الخاصة بهم، أو شرح قسم من التعليمات البرمجية، أو المساعدة في تصحيح الأخطاء واقتراح إصلاحات للتعليمات البرمجية التي لا تعمل بشكل صحيح.
  • بناء: سيساعد المساعد المبدعين على إنشاء نماذج أولية للأفكار الجديدة بسرعة. على سبيل المثال، يمكن لمنشئ جديد إنشاء مشاهد كاملة وتجربة إصدارات مختلفة ببساطة عن طريق كتابة مطالبة مثل "أضف بعض مصابيح الشوارع على طول هذا الطريق" أو "اصنع غابة بأنواع مختلفة من الأشجار". أضف الآن بعض الشجيرات والزهور.

سيكون العمل مع المساعد تعاونيًا وتفاعليًا ومتكررًا، مما يمكّن المبدعين من تقديم التعليقات وجعل المساعد يعمل على تقديم الحل المناسب. سيكون الأمر أشبه بوجود منشئ خبير كشريك يمكنك من خلاله طرح الأفكار وتجربتها حتى تحصل عليها بشكل صحيح.

إطار الحدود = "0 ″ allow =" مقياس التسارع ؛ تشغيل تلقائي؛ الكتابة الحافظة. الوسائط المشفرة جيروسكوب؛ صور في صور؛ web-share ”allowfullscreen>

لجعل المساعد أفضل شريك على الإطلاق، قمنا بإصدار إعلان آخر في RDC: لقد قمنا بدعوة المطورين لذلك الاشتراك في للمساهمة ببيانات نص Luau مجهولة المصدر. ستساعد بيانات البرنامج النصي هذه في جعل أدوات الذكاء الاصطناعي لدينا، مثل Code Assist وAssistant، أفضل بكثير في اقتراح وإنشاء تعليمات برمجية أكثر كفاءة، مما يعود بالنفع على مطوري Roblox الذين يستخدمونها. علاوة على ذلك، إذا اختار المطورون المشاركة خارج Roblox، فستتم إضافة بيانات البرنامج النصي الخاصة بهم إلى مجموعة بيانات متاحة لجهات خارجية لتدريب أدوات الدردشة الخاصة بالذكاء الاصطناعي الخاصة بهم لتكون أفضل في اقتراح كود Luau، مما يعيد الجميل لمطوري Luau في كل مكان.

لكي نكون واضحين، من خلال البحث الشامل للمستخدم والمحادثات الشفافة مع كبار المطورين، قمنا بتصميم هذا للاشتراك وسنساعد في ضمان فهم جميع المشاركين وموافقتهم على ما يستلزمه البرنامج. كشكر لأولئك الذين اختاروا المشاركة في مشاركة بيانات البرنامج النصي مع Roblox، سنمنح إمكانية الوصول إلى الإصدارات الأكثر قوة من Assistant وCode Assist التي يتم تشغيلها بواسطة هذا النموذج الذي تم تدريبه من قبل المجتمع. سيستمر أولئك الذين لم يشتركوا في الوصول إلى الإصدار الحالي من المساعد ومساعد التعليمات البرمجية.

إنشاء الصور الرمزية أسهل 

في النهاية، نريد أن يكون لكل مستخدم من مستخدمينا يوميًا البالغ عددهم 65.5 مليونًا صورة رمزية تمثلهم حقًا وتعبر عن هويتهم. لقد أصدرنا مؤخرًا القدرة لأعضاء برنامج UGC الخاص بنا على ذلك إنشاء وبيع كل من الأجسام الرمزية والرؤوس المستقلة. اليوم، تتطلب هذه العملية الوصول إلى الاستوديو أو برنامج UGC الخاص بنا، ومستوى عالٍ إلى حد ما من المهارة، وعدة أيام من العمل لتمكين تعبيرات الوجه، وحركة الجسم، والتلاعب ثلاثي الأبعاد، وما إلى ذلك. وهذا يجعل إنشاء الصور الرمزية يستغرق وقتًا طويلاً، كما أنه يتطلب الكثير من العمل. التاريخ، محدودية عدد الخيارات المتاحة. نريد أن نذهب إلى أبعد من ذلك.

لتمكين كل شخص في Roblox من الحصول على صورة رمزية مخصصة ومعبرة، نحتاج إلى جعل إنشاء الصور الرمزية وتخصيصها أمرًا سهلاً للغاية. في RDC، أعلنا عن أداة جديدة سنصدرها في عام 2024 ستتيح إنشاء صورة رمزية مخصصة بسهولة من صورة أو من عدة صور. باستخدام هذه الأداة، سيتمكن أي منشئ لديه حق الوصول إلى الاستوديو أو برنامج UGC الخاص بنا من تحميل صورة وإنشاء صورة رمزية له، ثم تعديلها كما يريد. وعلى المدى الطويل، نعتزم أيضًا إتاحة هذا مباشرةً ضمن التجارب على Roblox.

ولجعل ذلك ممكنًا، نقوم بتدريب نماذج الذكاء الاصطناعي على مخطط الصورة الرمزية لـ Roblox ومجموعة من نماذج الصور الرمزية ثلاثية الأبعاد المملوكة لـ Roblox. نهج واحد يؤثر بحث لإنشاء صور رمزية ثلاثية الأبعاد من صور ثنائية الأبعاد. نحن نتطلع أيضًا إلى استخدام نماذج نشر النص إلى الصورة المدربة مسبقًا لزيادة بيانات التدريب المحدودة ثلاثية الأبعاد باستخدام تقنيات توليد ثنائية الأبعاد، واستخدام شبكة توليد ثلاثية الأبعاد قائمة على شبكة الخصومة التوليدية (GAN) للتدريب. وأخيرا، نحن نعمل على استخدام كونترول نت للطبقة في أوضاع محددة مسبقًا لتوجيه الصور متعددة العرض الناتجة للصور الرمزية. 

تنتج هذه العملية شبكة ثلاثية الأبعاد للصورة الرمزية. بعد ذلك، سنستفيد من تقنية 3D أبحاث التجزئة الدلالية، تم تدريبه على أوضاع الصورة الرمزية ثلاثية الأبعاد، لأخذ تلك الشبكة ثلاثية الأبعاد وضبطها لإضافة ميزات الوجه المناسبة، والقفص، والتزوير، والقوام، في جوهره، مما يجعل الشبكة ثلاثية الأبعاد الثابتة في صورة رمزية لـ Roblox. وأخيرًا، تتيح أداة تحرير الشبكة للمستخدمين تحويل النموذج وضبطه لجعله يبدو أشبه بالإصدار الذي يتخيلونه. ويحدث كل هذا بسرعة - في غضون دقائق - مما يؤدي إلى إنشاء صورة رمزية جديدة يمكن استيرادها إلى Roblox واستخدامها في التجربة.

إطار الحدود = "0 ″ allow =" مقياس التسارع ؛ تشغيل تلقائي؛ الكتابة الحافظة. الوسائط المشفرة جيروسكوب؛ صور في صور؛ web-share ”allowfullscreen>

الإشراف على الاتصالات الصوتية

لا يقتصر الذكاء الاصطناعي بالنسبة لنا على الإبداع فحسب، بل إنه أيضًا نظام أكثر كفاءة لضمان مجتمع متنوع وآمن ومدني على نطاق واسع. عندما نبدأ في طرح ميزات صوتية جديدة، بما في ذلك الدردشة الصوتية وRoblox Connect، والمكالمات الجديدة كميزة الصورة الرمزية الخاصة بك، وواجهات برمجة التطبيقات التي تم الإعلان عنها في RDC، فإننا نواجه تحديًا جديدًا - الإشراف على اللغة المنطوقة في الوقت الفعلي. معيار الصناعة الحالي لهذا هو عملية تعرف باسم التعرف التلقائي على الكلام (ASR)، والتي تأخذ بشكل أساسي ملفًا صوتيًا، وتقوم بنسخه لتحويله إلى نص، ثم تحليل النص للبحث عن لغة أو كلمات رئيسية غير مناسبة، وما إلى ذلك. 

يعمل هذا بشكل جيد مع الشركات التي تستخدمه على نطاق أصغر، ولكن عندما اكتشفنا استخدام نفس عملية ASR للتحكم في الاتصال الصوتي، أدركنا بسرعة أنها صعبة وغير فعالة على نطاقنا. يفقد هذا الأسلوب أيضًا معلومات قيمة بشكل لا يصدق يتم تشفيرها في مستوى صوت المتحدث ونبرة صوته، بالإضافة إلى السياق الأوسع للمحادثة. من بين ملايين دقائق المحادثة التي يتعين علينا تدوينها كل يوم، عبر لغات مختلفة، قد تبدو نسبة صغيرة جدًا فقط وكأنها شيء غير مناسب. ومع استمرارنا في التوسع، سيتطلب هذا النظام المزيد والمزيد من القوة الحاسوبية لمواكبة ذلك. لذلك ألقينا نظرة فاحصة على كيفية القيام بذلك بشكل أكثر كفاءة، من خلال إنشاء مسار ينتقل مباشرة من الصوت المباشر إلى تصنيف المحتوى للإشارة إلى ما إذا كان ينتهك سياساتنا أم لا.

في النهاية، تمكنا من بناء نظام داخلي مخصص للكشف عن الصوت باستخدام ASR لتصنيف مجموعات البيانات الصوتية الداخلية لدينا، ثم استخدام تلك البيانات الصوتية السرية لتدريب النظام. وبشكل أكثر تحديدًا، لتدريب هذا النظام الجديد، نبدأ بالصوت وننشئ نصًا. نقوم بعد ذلك بتشغيل النص من خلال نظام تصفية النصوص Roblox لتصنيف الصوت. يعد نظام تصفية النص هذا رائعًا في اكتشاف اللغة التي تنتهك السياسة على Roblox نظرًا لأننا قمنا بتحسين نظام التصفية نفسه لسنوات على اللغة العامية والاختصارات واللغة الخاصة بـ Roblox. في نهاية هذه الطبقات من التدريب، لدينا نموذج قادر على اكتشاف انتهاكات السياسة مباشرةً من الصوت في الوقت الفعلي.

على الرغم من أن هذا النظام يتمتع بالقدرة على اكتشاف كلمات رئيسية معينة مثل الألفاظ النابية، إلا أن انتهاكات السياسة نادرًا ما تكون كلمة واحدة فقط. غالبًا ما تبدو كلمة واحدة إشكالية في سياق واحد وتكون جيدة في سياق مختلف. في الأساس، تتضمن هذه الأنواع من الانتهاكات ما تقوله، وكيف تقوله، والسياق الذي يتم فيه الإدلاء بالتصريحات.

لكي نتحسن في فهم السياق، فإننا نستفيد من القوة الأصلية للبنية القائمة على المحولات، والتي تعد جيدة جدًا في تلخيص التسلسل. يمكن أن يأخذ سلسلة من البيانات، مثل دفق صوتي، ويلخصها لك. تمكننا هذه البنية من الحفاظ على تسلسل صوتي أطول حتى نتمكن ليس فقط من اكتشاف الكلمات ولكن أيضًا السياق والتنغيم. بمجرد تجميع كل هذه العناصر معًا، يكون لدينا نظام نهائي حيث يكون الإدخال صوتيًا والإخراج عبارة عن تصنيف، سواء كان ينتهك السياسة أو لا ينتهكها. يمكن لهذا النظام اكتشاف الكلمات الرئيسية والعبارات التي تنتهك السياسة، وكذلك النبرة والمشاعر والسياق الآخر المهم لتحديد النية. يعد هذا النظام الجديد، الذي يكتشف الكلام الذي ينتهك السياسة مباشرة من الصوت، أكثر كفاءة في الحوسبة من نظام ASR التقليدي، مما سيجعل الأمر أسهل بكثير في التوسع بينما نواصل إعادة تصور كيفية اجتماع الأشخاص معًا.

كنا بحاجة أيضًا إلى طريقة جديدة لتحذير مستخدمي أدوات الاتصال الصوتي الخاصة بنا من العواقب المحتملة لهذا النوع من اللغة. ومع وجود نظام الكشف المبتكر هذا تحت تصرفنا، فإننا نقوم الآن بتجربة طرق للتأثير على السلوك عبر الإنترنت للحفاظ على بيئة آمنة. نحن نعلم أن الأشخاص ينتهكون سياساتنا في بعض الأحيان عن غير قصد ونريد أن نفهم ما إذا كان التذكير العرضي قد يساعد في منع المزيد من الانتهاكات. وللمساعدة في ذلك، نقوم بتجربة تعليقات المستخدمين في الوقت الفعلي من خلال الإشعارات. إذا اكتشف النظام أنك قلت شيئًا ينتهك سياساتنا عدة مرات، فسنعرض إشعارًا منبثقًا على شاشتك لإعلامك بأن لغتك تنتهك سياساتنا ونوجهك إلى سياساتنا للحصول على مزيد من المعلومات.

ومع ذلك، فإن إشعارات البث الصوتي ليست سوى عنصر واحد من نظام الإشراف. نحن ننظر أيضًا إلى الأنماط السلوكية على المنصة، بالإضافة إلى الشكاوى المقدمة من الآخرين على Roblox، لتوجيه قرارات الاعتدال الشاملة لدينا. يمكن أن يؤدي مجموع هذه الإشارات إلى عواقب أقوى، بما في ذلك إلغاء الوصول إلى الميزات الصوتية، أو حظرها من المنصة بالكامل في حالة حدوث مخالفات أكثر خطورة. يعد الحفاظ على مجتمعنا آمنًا ومدنيًا أمرًا بالغ الأهمية حيث تجتمع هذه التطورات في نماذج الذكاء الاصطناعي متعدد الوسائط، والذكاء الاصطناعي التوليدي، وLLMs معًا لتمكين أدوات وقدرات جديدة مذهلة للمبدعين. 

نحن نؤمن بأن تزويد منشئي المحتوى بهذه الأدوات سيقلل من حاجز دخول منشئي المحتوى الأقل خبرة وسيحرر منشئي المحتوى الأكثر خبرة من المهام الأكثر شاقة في هذه العملية. سيسمح لهم ذلك بقضاء المزيد من الوقت في الجوانب الإبداعية للضبط الدقيق والتفكير. هدفنا من كل هذا هو تمكين الجميع، في كل مكان، من إحياء أفكارهم وزيادة تنوع الصور الرمزية والعناصر والتجارب المتاحة على Roblox بشكل كبير. نحن أيضا تبادل المعلومات والأدوات للمساعدة في حماية الإبداعات الجديدة

نحن نتخيل بالفعل إمكانيات مذهلة: لنفترض أن شخصًا ما قادر على إنشاء صورة رمزية شبيهة مباشرةً من صورة ما، ويمكنه بعد ذلك تخصيص الصورة الرمزية الخاصة به لجعله أطول أو جعله بأسلوب الرسوم المتحركة. أو يمكنهم بناء تجربة من خلال مطالبة المساعد بإضافة السيارات والمباني والمناظر الطبيعية، أو ضبط ظروف الإضاءة أو الرياح، أو تغيير التضاريس. ومن هناك، يمكنهم التكرار لتحسين الأشياء بمجرد الكتابة ذهابًا وإيابًا باستخدام المساعد. نحن نعلم أن حقيقة ما ينشئه الأشخاص باستخدام هذه الأدوات، عندما تصبح متاحة، سوف تتجاوز بكثير ما يمكننا حتى تخيله.

الطابع الزمني:

اكثر من Roblox