تتبع موضع الكرة في السحابة مع جولة PGA | خدمات الويب الأمازون

تتبع موضع الكرة في السحابة مع جولة PGA | خدمات الويب الأمازون

عقدة المصدر: 3057379

تواصل PGA TOUR تعزيز تجربة الجولف من خلال البيانات في الوقت الفعلي التي تجعل المشجعين أقرب إلى اللعبة. ولتقديم تجارب أكثر ثراءً، فإنهم يتابعون تطوير نظام تتبع موقع الكرة من الجيل التالي الذي يتتبع موقع الكرة تلقائيًا على المنطقة الخضراء.

تستخدم TOUR حاليًا ShotLink المدعوم من CDW، وهو نظام تسجيل متميز يستخدم نظام كاميرا معقد مع حساب في الموقع، لتتبع موضع البداية والنهاية لكل لقطة عن كثب. أرادت TOUR استكشاف تقنيات الرؤية الحاسوبية والتعلم الآلي (ML) لتطوير خط أنابيب قائم على السحابة من الجيل التالي لتحديد موقع كرات الجولف في الملاعب الخضراء.

أظهر مركز Amazon Geneative AI Innovation Center (GAIIC) فعالية هذه التقنيات في مجموعة بيانات نموذجية من حدث PGA TOUR الأخير. صممت GAIIC خط أنابيب معياريًا يتسلسل سلسلة من الشبكات العصبية التلافيفية العميقة التي نجحت في تحديد موقع اللاعبين داخل مجال رؤية الكاميرا، وتحديد اللاعب الذي يضع الكرة، وتتبع الكرة أثناء تحركها نحو الكأس.

في هذا المنشور، نصف تطوير خط الأنابيب هذا، والبيانات الأولية، وتصميم الشبكات العصبية التلافيفية التي تتكون من خط الأنابيب، وتقييم أدائه.

البيانات

قدمت الجولة 3 أيام من الفيديو المستمر من بطولة حديثة من ثلاث كاميرات بدقة 4K موضوعة حول المنطقة الخضراء في فتحة واحدة. يوضح الشكل التالي إطارًا من إحدى الكاميرات تم قصه وتكبيره بحيث يمكن رؤية وضع اللاعب بسهولة. لاحظ أنه على الرغم من الدقة العالية للكاميرات، إلا أنه بسبب البعد عن اللون الأخضر، تظهر الكرة صغيرة (عادة 3×3 أو 4×4 أو 5×5 بكسل)، وقد يكون من الصعب تحديد مواقع الأهداف بهذا الحجم بدقة.

بالإضافة إلى خلاصات الكاميرا، زودت TOUR GAIIC ببيانات تسجيل توضيحية لكل لقطة، بما في ذلك الموقع العالمي لموضع الراحة والطابع الزمني. سمح ذلك بتصور كل تسديدة على المنطقة الخضراء، بالإضافة إلى القدرة على سحب جميع مقاطع الفيديو الخاصة باللاعبين، والتي يمكن تصنيفها يدويًا واستخدامها لتدريب نماذج الكشف التي تشكل خط الأنابيب. يوضح الشكل التالي مشاهدات الكاميرا الثلاثة مع تراكبات مسار الضربة التقريبية، عكس اتجاه عقارب الساعة من أعلى اليسار. يتم تحريك الدبوس كل يوم، حيث يتوافق اليوم الأول مع اللون الأزرق، واليوم الثاني مع اللون الأحمر، واليوم الثالث مع اللون البرتقالي.

نظرة عامة على خطوط الأنابيب

يتكون النظام العام من خط أنابيب التدريب وخط أنابيب الاستدلال. يوضح الرسم البياني التالي بنية خط أنابيب التدريب. نقطة البداية هي استيعاب بيانات الفيديو، إما من وحدة البث مثل أمازون كينسيس للفيديو المباشر أو وضعه مباشرة في خدمة تخزين أمازون البسيطة (Amazon S3) للفيديو التاريخي. يتطلب مسار التدريب معالجة مسبقة للفيديو ووضع علامات يدوية على الصور الحقيقة الأمازون SageMaker الأرض. يمكن تدريب النماذج مع الأمازون SageMaker والتحف الخاصة بهم المخزنة في Amazon S3.

يتكون خط الاستدلال، الموضح في الرسم البياني التالي، من عدد من الوحدات التي تستخرج المعلومات على التوالي من الفيديو الخام وتتنبأ في النهاية بالإحداثيات العالمية للكرة في حالة الراحة. في البداية، يتم اقتصاص اللون الأخضر من مجال الرؤية الأكبر من كل كاميرا، من أجل تقليل مساحة البكسل التي يجب على العارضات فيها البحث عن اللاعبين والكرات. بعد ذلك، يتم استخدام شبكة عصبية تلافيفية عميقة (CNN) للعثور على مواقع الأشخاص في مجال الرؤية. يتم استخدام شبكة CNN أخرى للتنبؤ بنوع الشخص الذي تم العثور عليه من أجل تحديد ما إذا كان أي شخص على وشك التسديد. بعد تحديد موقع المضرب المحتمل في مجال الرؤية، يتم استخدام نفس الشبكة للتنبؤ بموقع الكرة بالقرب من المضرب. وتقوم شبكة CNN ثالثة بتتبع الكرة أثناء حركتها، وأخيرًا، يتم تطبيق وظيفة التحويل من موضع بكسل الكاميرا إلى إحداثيات نظام تحديد المواقع العالمي (GPS).

كشف اللاعب

على الرغم من أنه سيكون من الممكن تشغيل CNN لاكتشاف الكرة على إطار 4K كامل في فاصل زمني محدد، نظرًا للحجم الزاوي للكرة على مسافات الكاميرا هذه، فإن أي جسم أبيض صغير يؤدي إلى اكتشاف الكرة، مما يؤدي إلى العديد من الإنذارات الكاذبة. لتجنب البحث في إطار الصورة بأكمله للكرة، من الممكن الاستفادة من الارتباطات بين وضعية اللاعب وموقع الكرة. يجب أن تكون الكرة التي على وشك أن يتم رميها بجوار أحد اللاعبين، لذا فإن العثور على اللاعبين في مجال الرؤية سيقيد بشكل كبير منطقة البكسل التي يجب أن يبحث فيها الكاشف عن الكرة.

تمكنا من استخدام شبكة CNN التي تم تدريبها مسبقًا للتنبؤ بالمربعات المحيطة بجميع الأشخاص في المشهد، كما هو موضح في الشكل التالي. لسوء الحظ، يوجد في كثير من الأحيان أكثر من كرة واحدة على المنطقة الخضراء، لذا يلزم المزيد من المنطق بما يتجاوز مجرد العثور على جميع الأشخاص والبحث عن الكرة. يتطلب هذا شبكة CNN أخرى للعثور على اللاعب الذي تم وضعه حاليًا.

تصنيف اللاعبين وكشف الكرة

لتضييق نطاق المكان الذي يمكن أن تكون فيه الكرة بشكل أكبر، قمنا بضبط شبكة CNN (YOLO v7) المدربة مسبقًا لاكتشاف الأشياء لتصنيف جميع الأشخاص الموجودين على المنطقة الخضراء. كان أحد العناصر المهمة في هذه العملية هو وضع علامة يدويًا على مجموعة من الصور باستخدام SageMaker Ground Truth. سمحت التسميات لـ CNN بتصنيف وضع اللاعب بدقة عالية. في عملية وضع العلامات، تم أيضًا تحديد الكرة جنبًا إلى جنب مع وضع اللاعب، لذلك تمكنت شبكة CNN هذه من إجراء اكتشاف الكرة أيضًا، ورسم مربع محيط أولي حول الكرة قبل تسديد الكرة وإدخال معلومات الموقع في شبكة CNN لتتبع الكرة في اتجاه مجرى النهر. .

نستخدم أربعة تصنيفات مختلفة للتعليق على الكائنات الموجودة في الصور:

  • وضع اللاعب – اللاعب الذي يحمل النادي وفي وضعية اللعب
  • لاعب لا يضع - اللاعب ليس في مركز اللعب (قد يكون أيضًا يحمل ناديًا)
  • شخص آخر – أي شخص آخر ليس لاعباً
  • كرة الغولف - كرة الجولف

يوضح الشكل التالي أنه تم ضبط شبكة CNN بدقة باستخدام تسميات من SageMaker Ground Truth لتصنيف كل شخص في مجال الرؤية. يعد هذا أمرًا صعبًا بسبب النطاق الواسع من المظاهر المرئية للاعبين والعلب والمشجعين. بعد أن تم تصنيف اللاعب على أنه لاعب، تم تطبيق CNN المضبوط للكشف عن الكرة على المنطقة الصغيرة المحيطة بهذا اللاعب مباشرة.

تتبع مسار الكرة

تم استخدام شبكة CNN ثالثة، وهي بنية ResNet تم تدريبها مسبقًا لتتبع الحركة، لتتبع الكرة بعد تسديدها. يعد تتبع الحركة مشكلة تم بحثها بدقة، لذلك كان أداء هذه الشبكة جيدًا عند دمجها في خط الأنابيب دون مزيد من الضبط الدقيق.

إخراج خط الأنابيب

تضع سلسلة CNNs صناديق محيطة حول الأشخاص، وتصنف الأشخاص على المنطقة الخضراء، وتكتشف موضع الكرة الأولي، وتتتبع الكرة بمجرد أن تبدأ في التحرك. يوضح الشكل التالي إخراج الفيديو المسمى لخط الأنابيب. يتم تتبع وتسجيل مواضع البكسل للكرة أثناء تحركها. لاحظ أنه يتم تعقب الأشخاص الموجودين باللون الأخضر وتحديدهم بواسطة المربعات المحيطة؛ يتم تسمية المضرب الموجود في الأسفل بشكل صحيح على أنه "وضع اللاعب"، ويتم تعقب الكرة المتحركة وتحديدها بواسطة مربع محيط أزرق صغير.

الأداء

لتقييم أداء مكونات خط الأنابيب، من الضروري الحصول على بيانات مصنفة. على الرغم من أنه تم تزويدنا بالموقع العالمي للكرة على الأرض، لم يكن لدينا نقاط وسيطة للحقيقة الأرضية، مثل موضع البكسل النهائي للكرة أو موقع البكسل الخاص بوضع اللاعب. ومن خلال مهمة وضع العلامات التي قمنا بها، قمنا بتطوير بيانات الحقيقة الأساسية لهذه المخرجات الوسيطة لخط الأنابيب والتي تسمح لنا بقياس الأداء.

تصنيف اللاعب ودقة الكشف عن الكرة

للكشف عن وضع اللاعب وموقع الكرة الأولي، قمنا بتسمية مجموعة بيانات وقمنا بضبط نموذج YOLO v7 CNN كما هو موضح سابقًا. قام النموذج بتصنيف مخرجات وحدة الكشف عن الأشخاص السابقة إلى أربع فئات: اللاعب الذي يضع الكرة، واللاعب الذي لا يضعها، والأشخاص الآخرون، وكرة الجولف، كما هو موضح في الشكل التالي.

يتم تقييم أداء هذه الوحدة باستخدام مصفوفة الارتباك، الموضحة في الشكل التالي. توضح القيم الموجودة في المربعات القطرية عدد المرات التي تطابقت فيها الفئة المتوقعة مع الفئة الفعلية من تسميات الحقيقة الأساسية. يحتوي النموذج على 89% من التذكر أو أفضل لكل فئة من فئات الأشخاص، و79% من التذكر لكرات الجولف (وهو أمر متوقع لأن النموذج تم تدريبه مسبقًا على أمثلة مع الأشخاص ولكن ليس على أمثلة مع كرات الجولف؛ ويمكن تحسين ذلك باستخدام المزيد من كرات الجولف ذات العلامات في مجموعة التدريب).

الخطوة التالية هي تشغيل جهاز تعقب الكرة. نظرًا لأن ناتج اكتشاف الكرة هو احتمال ثقة، فمن الممكن أيضًا تعيين عتبة "الكرة المكتشفة" وملاحظة كيف يغير ذلك النتائج، الملخصة في الشكل التالي. هناك مقايضة في هذه الطريقة لأن العتبة الأعلى ستحتوي بالضرورة على عدد أقل من الإنذارات الكاذبة ولكنها ستفتقد أيضًا بعض الأمثلة الأقل تأكيدًا للكرات. لقد اختبرنا عتبات الثقة البالغة 20% و50%، ووجدنا أن نسبة اكتشاف الكرة بلغت 78% و61% على التوالي. وبهذا المقياس، فإن عتبة الـ 20% هي الأفضل. تتجلى المقايضة في أنه بالنسبة لعتبة الثقة البالغة 20%، فإن 80% من إجمالي الاكتشافات كانت في الواقع كرات (20% إيجابية كاذبة)، بينما بالنسبة لعتبة الثقة البالغة 50%، كانت 90% كرات (10% إيجابية كاذبة). بالنسبة لعدد أقل من النتائج الإيجابية الكاذبة، فإن عتبة الثقة البالغة 50٪ هي الأفضل. يمكن تحسين كلا هذين المقياسين باستخدام المزيد من البيانات المصنفة لمجموعة تدريب أكبر.

يبلغ معدل إنتاجية خط أنابيب الكشف 10 إطارات في الثانية، لذلك في شكله الحالي، لا يكون مثيل واحد سريعًا بما يكفي ليتم تشغيله بشكل مستمر على الإدخال بمعدل 50 إطارًا في الثانية. يتطلب تحقيق علامة 7 ثوانٍ للإخراج بعد خطوات الكرة مزيدًا من التحسين لزمن الوصول، ربما عن طريق تشغيل إصدارات متعددة من خط الأنابيب بالتوازي وضغط نماذج CNN عبر التكميم (على سبيل المثال).

دقة تتبع مسار الكرة

يعمل نموذج CNN المُدرب مسبقًا من MMTracking بشكل جيد، ولكن هناك حالات فشل مثيرة للاهتمام. يوضح الشكل التالي حالة يبدأ فيها جهاز التتبع بالكرة، ويوسع صندوقه المحيط ليشمل كلاً من رأس المضرب والكرة، ثم للأسف يتتبع رأس المضرب وينسى الكرة. في هذه الحالة، يظهر رأس المضرب باللون الأبيض (ربما بسبب الانعكاس المرآوي)، لذا يكون الارتباك مفهومًا؛ يمكن أن تساعد البيانات المصنفة لتتبع CNN وضبطها في تحسين ذلك في المستقبل.

وفي الختام

في هذا المنشور، ناقشنا تطوير خط أنابيب معياري يحدد موقع اللاعبين داخل مجال رؤية الكاميرا، ويحدد اللاعب الذي يضع الكرة، ويتتبع الكرة أثناء تحركها نحو الكأس.

لمزيد من المعلومات حول تعاون AWS مع PGA TOUR، راجع تتعاون PGA TOUR مع AWS لإعادة تصور تجربة المعجبين.


حول المؤلف

جيمس جولدن هو عالم تطبيقي في Amazon Bedrock ويتمتع بخلفية في التعلم الآلي وعلم الأعصاب.

هنري وانغ هو عالم تطبيقي في مركز Amazon Geneative AI Innovation Center، حيث يقوم بالبحث وبناء حلول الذكاء الاصطناعي التوليدية لعملاء AWS. يركز على الرياضة والإعلام والصناعات الترفيهية، وعمل مع العديد من الدوريات الرياضية والفرق والمذيعين في الماضي. خلال أوقات فراغه، يحب لعب التنس والجولف.

تريامباك جانجوبادياي هو عالم تطبيقي في مركز AWS Geneative AI Innovation Center، حيث يتعاون مع المنظمات عبر مجموعة متنوعة من الصناعات. يتضمن دوره إجراء الأبحاث وتطوير حلول الذكاء الاصطناعي التوليدية لمواجهة تحديات الأعمال الحاسمة وتسريع اعتماد الذكاء الاصطناعي.

الطابع الزمني:

اكثر من التعلم الآلي من AWS