داخل التكنولوجيا - حل تعابير الوجه الرمزية - مدونة Roblox

داخل التكنولوجيا – حل تعبيرات الوجه الرمزية – مدونة Roblox

عقدة المصدر: 3039939

Inside the Tech عبارة عن سلسلة من المدونات المصاحبة لموقعنا بودكاست محادثات التكنولوجيا. في الحلقة 20 من البودكاست، الصور الرمزية والتعبير عن الذات، تحدث ديفيد باسزوكي، الرئيس التنفيذي لشركة Roblox، مع المدير الأول للهندسة كيران بهات، والمدير الأول للمنتج ماهيش راماسوبرامانيان، ومدير المنتج الرئيسي إيفي جوناوان، حول مستقبل التواصل الغامر من خلال الصور الرمزية والتعبير عن الذات. التحديات التقنية التي نحلها لتمكينها. في هذا الإصدار من Inside the Tech، تحدثنا مع مدير الهندسة إيان ساكس لمعرفة المزيد حول أحد هذه التحديات التقنية - تمكين تعبيرات الوجه للصور الرمزية لدينا - وكيف يساعد عمل فريق إنشاء الصور الرمزية (ضمن مجموعة المحرك) المستخدمين على التعبير عن أنفسهم على روبلوكس.

ما هي أكبر التحديات التقنية التي يواجهها فريقك؟

عندما نفكر في كيفية تمثيل الصورة الرمزية لشخص ما على Roblox، فإننا عادةً ما نأخذ في الاعتبار شيئين: كيف يتصرف وكيف يبدو. لذا فإن أحد التركيزات الرئيسية لفريقي هو تمكين الصور الرمزية من عكس تعبيرات الشخص. على سبيل المثال، عندما يبتسم شخص ما، فإن الصورة الرمزية الخاصة به تبتسم بشكل متزامن معه. 

أحد الأمور الصعبة المتعلقة بتتبع تعبيرات الوجه هو ضبط كفاءة نموذجنا حتى نتمكن من التقاط هذه التعبيرات مباشرة على جهاز الشخص في الوقت الفعلي. نحن ملتزمون بجعل هذه الميزة في متناول أكبر عدد ممكن من الأشخاص على Roblox، ونحتاج إلى دعم مجموعة كبيرة من الأجهزة. يعد مقدار الطاقة الحاسوبية التي يمكن لجهاز شخص ما التعامل معها عاملاً حيويًا في ذلك. نريد أن يكون الجميع قادرين على التعبير عن أنفسهم، وليس فقط الأشخاص الذين لديهم أجهزة قوية. لذلك، نقوم بنشر أحد نماذج التعلم العميق الأولى لدينا على الإطلاق لجعل ذلك ممكنًا. 

التحدي الفني الرئيسي الثاني الذي نتصدى له هو تبسيط العملية التي يستخدمها منشئو المحتوى لتطوير الصور الرمزية الديناميكية التي يمكن للأشخاص تخصيصها. يعد إنشاء صور رمزية كهذه أمرًا معقدًا للغاية لأنه يتعين عليك تصميم نموذج للرأس وإذا كنت تريد تحريكه، فيجب عليك القيام بأشياء محددة جدًا لتجهيز النموذج، مثل وضع المفاصل والأوزان للجلد المختلط الخطي. نريد أن نجعل هذه العملية أسهل لمنشئي المحتوى، لذلك نعمل على تطوير التكنولوجيا لتبسيطها. يجب عليهم فقط التركيز على بناء النموذج الثابت. عندما يفعلون ذلك، يمكننا تلقائيًا تجهيزه ووضعه في قفص. بعد ذلك، يجب أن يعمل تتبع الوجه والملابس ذات الطبقات بشكل فوري. 

ما هي بعض الأساليب والحلول المبتكرة التي نستخدمها لمواجهة هذه التحديات التقنية؟

لقد قمنا ببعض الأشياء المهمة لضمان حصولنا على المعلومات الصحيحة لتعبيرات الوجه. يبدأ ذلك باستخدام FACS (نظام التحكم في الرسوم المتحركة للوجه) المتوافق مع معايير الصناعة. هذه هي مفتاح كل شيء لأنها هي ما نستخدمه لتوجيه تعابير وجه الصورة الرمزية - ما مدى اتساع الفم، وما هي العيون التي تفتحها، وما إلى ذلك، وما إلى ذلك. يمكننا استخدام حوالي 50 عنصر تحكم FACS مختلفًا لوصف تعبيرات الوجه المرغوبة. 

عندما تقوم بإنشاء خوارزمية تعلم آلي لتقدير تعبيرات الوجه من الصور أو مقاطع الفيديو، فإنك تدرب نموذجًا من خلال عرض صور نموذجية لها تعبيرات الحقيقة الأساسية المعروفة (الموصوفة باستخدام FACS). من خلال عرض العديد من الصور المختلفة للنموذج بتعبيرات مختلفة، يتعلم النموذج تقدير تعبيرات الوجه للوجوه غير المرئية سابقًا.

عادةً، عندما تعمل على تتبع الوجه، يتم تصنيف هذه التعبيرات من قبل البشر، وأسهل طريقة هي استخدام المعالم - على سبيل المثال، وضع نقاط على صورة لتحديد مواقع البكسل لملامح الوجه مثل زوايا العينين. 

لكن أوزان FACS مختلفة لأنه لا يمكنك النظر إلى الصورة والقول، "الفم مفتوح 0.9 مقابل 0.5." لحل هذه المشكلة، نحن نستخدم البيانات الاصطناعية لإنشاء أوزان FACS مباشرة والتي تتكون من نماذج ثلاثية الأبعاد يتم عرضها باستخدام FACS من زوايا وظروف إضاءة مختلفة.

لسوء الحظ، نظرًا لأن النموذج يحتاج إلى التعميم على الوجوه الحقيقية، فلا يمكننا التدريب على البيانات الاصطناعية فقط. لذلك، قمنا بتدريب النموذج مسبقًا على مهمة تنبؤ تاريخية باستخدام مجموعة من البيانات الحقيقية والتركيبية، مما يسمح للنموذج بتعلم مهمة التنبؤ بنظام FACS باستخدام بيانات تركيبية بحتة.

نريد أن يعمل تتبع الوجه للجميع، ولكن بعض الأجهزة أقوى من غيرها. وهذا يعني أننا بحاجة إلى بناء نظام قادر على التكيف ديناميكيًا مع قوة المعالجة لأي جهاز. لقد أنجزنا ذلك عن طريق تقسيم نموذجنا إلى مرحلة تنبؤ تقريبية سريعة لنظام مراقبة الأصول الميدانية تسمى BaseNet ومرحلة تحسين نظام مراقبة الأصول الميدانية أكثر دقة تسمى HiFiNet. أثناء وقت التشغيل، يقوم النظام بقياس أدائه، وفي ظل الظروف المثالية، نقوم بتشغيل كلا مرحلتي النموذج. ولكن في حالة اكتشاف تباطؤ (على سبيل المثال، بسبب جهاز منخفض الجودة)، يقوم النظام بتشغيل المرحلة الأولى فقط.

ما هي بعض الأشياء الأساسية التي تعلمتها من القيام بهذا العمل الفني؟

الأول هو أن تشغيل الميزة هو جزء صغير مما يتطلبه الأمر فعليًا لإصدار شيء ما بنجاح. يوجد قدر كبير من العمل في عملية الهندسة واختبار الوحدة. نحن بحاجة إلى التأكد من أن لدينا طرقًا جيدة لتحديد ما إذا كان لدينا مصدر جيد للبيانات. وعلينا أن نسأل أنفسنا: "هل هذا النموذج الجديد أفضل بالفعل من النموذج القديم؟"

قبل أن نبدأ حتى في الهندسة الأساسية، فإن جميع المسارات التي وضعناها لتتبع التجارب، والتأكد من أن مجموعة البيانات لدينا تمثل تنوع مستخدمينا، وتقييم النتائج، ونشر هذه النتائج الجديدة والحصول عليها، كلها أمور تدخل في جعل النموذج كافيًا. لكن هذا جزء من العملية لا يتم الحديث عنه كثيرًا، على الرغم من أهميته البالغة. 

ما هي قيمة Roblox التي يتوافق معها فريقك أكثر؟

يعد فهم مرحلة المشروع أمرًا أساسيًا، لذلك أثناء الابتكار، يكون أخذ وجهة نظر طويلة أمرًا مهمًا للغاية، خاصة في البحث عندما تحاول حل المشكلات المهمة. لكن احترام المجتمع يعد أمرًا بالغ الأهمية أيضًا عندما تحدد المشكلات التي تستحق الابتكار فيها لأننا نريد العمل على المشكلات ذات القيمة الأكبر لمجتمعنا الأوسع. على سبيل المثال، اخترنا على وجه التحديد العمل على "تتبع الوجه للجميع" بدلاً من "تتبع الوجه" فقط. عندما تصل إلى علامة 90 بالمائة من بناء شيء ما، فإن تحويل النموذج الأولي إلى ميزة وظيفية يتوقف على التنفيذ والتكيف مع مرحلة المشروع.

ما الذي يثير اهتمامك أكثر بشأن المكان الذي يتجه إليه Roblox وفريقك؟

لقد انجذبت دائمًا نحو العمل على الأدوات التي تساعد الأشخاص على الإبداع. يعد إنشاء شيء ما أمرًا مميزًا لأنه ينتهي بك الأمر إلى الحصول على شيء فريد خاص بك. لقد عملت في مجال المؤثرات البصرية وأدوات تحرير الصور المختلفة، باستخدام الرياضيات والعلوم والأبحاث والرؤى الهندسية لتمكين الأشخاص من القيام بأشياء مثيرة للاهتمام حقًا. الآن، في Roblox، يمكنني أن آخذ ذلك إلى مستوى جديد تمامًا. Roblox هي منصة للإبداع، وليست مجرد أداة. والنطاق الذي يمكننا به بناء الأدوات التي تمكن الإبداع أكبر بكثير من أي شيء عملت عليه من قبل، وهو أمر مثير للغاية.

الطابع الزمني:

اكثر من Roblox