पीजीए टूर के साथ क्लाउड में बॉल पोजीशन ट्रैकिंग | अमेज़न वेब सेवाएँ

पीजीए टूर के साथ क्लाउड में बॉल पोजीशन ट्रैकिंग | अमेज़न वेब सेवाएँ

स्रोत नोड: 3057379

पीजीए टूर वास्तविक समय के डेटा के साथ गोल्फ अनुभव को बढ़ाना जारी रखता है जो प्रशंसकों को खेल के करीब लाता है। और भी समृद्ध अनुभव प्रदान करने के लिए, वे अगली पीढ़ी के बॉल पोजीशन ट्रैकिंग सिस्टम के विकास पर काम कर रहे हैं जो हरे रंग पर गेंद की स्थिति को स्वचालित रूप से ट्रैक करता है।

टूर वर्तमान में सीडीडब्ल्यू द्वारा संचालित शॉटलिंक का उपयोग करता है, जो एक प्रमुख स्कोरिंग प्रणाली है जो प्रत्येक शॉट की शुरुआत और अंत स्थिति को बारीकी से ट्रैक करने के लिए ऑन-साइट गणना के साथ एक जटिल कैमरा सिस्टम का उपयोग करती है। टूर ग्रीन पुटिंग पर गोल्फ गेंदों का पता लगाने के लिए अगली पीढ़ी की क्लाउड-आधारित पाइपलाइन विकसित करने के लिए कंप्यूटर विज़न और मशीन लर्निंग (एमएल) तकनीकों का पता लगाना चाहता था।

अमेज़ॅन जेनरेटिव एआई इनोवेशन सेंटर (जीएआईआईसी) ने हाल ही में पीजीए टूर इवेंट के एक उदाहरण डेटासेट में इन तकनीकों की प्रभावशीलता का प्रदर्शन किया। जीएआईआईसी ने एक मॉड्यूलर पाइपलाइन तैयार की है जो गहरे दृढ़ तंत्रिका नेटवर्क की एक श्रृंखला को कैस्केडिंग करती है जो कैमरे के दृश्य क्षेत्र के भीतर खिलाड़ियों को सफलतापूर्वक स्थानीयकृत करती है, यह निर्धारित करती है कि कौन सा खिलाड़ी डाल रहा है, और कप की ओर बढ़ने पर गेंद को ट्रैक करता है।

इस पोस्ट में, हम इस पाइपलाइन के विकास, कच्चे डेटा, पाइपलाइन में शामिल कन्वेन्शनल न्यूरल नेटवर्क के डिज़ाइन और इसके प्रदर्शन के मूल्यांकन का वर्णन करते हैं।

जानकारी

टूर ने एक छेद पर हरे रंग के चारों ओर स्थित तीन 3K कैमरों से हाल के टूर्नामेंट से 4 दिनों का लगातार वीडियो प्रदान किया। निम्नलिखित चित्र एक कैमरे से एक फ्रेम को क्रॉप और ज़ूम करके दिखाया गया है ताकि प्लेयर को लगाना आसानी से दिखाई दे। ध्यान दें कि कैमरों के उच्च रिज़ॉल्यूशन के बावजूद, हरे रंग से दूरी के कारण, गेंद छोटी दिखाई देती है (आमतौर पर 3×3, 4×4 या 5×5 पिक्सेल), और इस आकार के लक्ष्यों को सटीक रूप से स्थानीयकृत करना मुश्किल हो सकता है।

कैमरा फ़ीड के अलावा, टूर ने GAIIC को प्रत्येक शॉट पर एनोटेटेड स्कोरिंग डेटा प्रदान किया, जिसमें उसकी आराम की स्थिति का विश्व स्थान और टाइमस्टैम्प भी शामिल था। इसने हरे रंग पर प्रत्येक पुट के विज़ुअलाइज़ेशन के साथ-साथ खिलाड़ियों के सभी वीडियो क्लिप को खींचने की क्षमता की अनुमति दी, जिसे मैन्युअल रूप से लेबल किया जा सकता है और पाइपलाइन बनाने वाले डिटेक्शन मॉडल को प्रशिक्षित करने के लिए उपयोग किया जा सकता है। निम्नलिखित आंकड़ा अनुमानित पुट पथ ओवरले के साथ तीन कैमरा दृश्य दिखाता है, ऊपर बाईं ओर से वामावर्त। पिन को हर दिन घुमाया जाता है, जहां पहला दिन नीला, दूसरा दिन लाल और तीसरा दिन नारंगी होता है।

पाइपलाइन सिंहावलोकन

समग्र प्रणाली में एक प्रशिक्षण पाइपलाइन और एक अनुमान पाइपलाइन दोनों शामिल हैं। निम्नलिखित चित्र प्रशिक्षण पाइपलाइन की वास्तुकला को दर्शाता है। प्रारंभिक बिंदु वीडियो डेटा का अंतर्ग्रहण है, या तो स्ट्रीमिंग मॉड्यूल से अमेज़ॅन किनिस लाइव वीडियो या सीधे प्लेसमेंट के लिए अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) ऐतिहासिक वीडियो के लिए। प्रशिक्षण पाइपलाइन के लिए वीडियो प्रीप्रोसेसिंग और छवियों की हाथ से लेबलिंग की आवश्यकता होती है अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ. मॉडलों को प्रशिक्षित किया जा सकता है अमेज़न SageMaker और उनकी कलाकृतियाँ Amazon S3 में संग्रहीत हैं।

निम्नलिखित आरेख में दर्शाई गई अनुमान पाइपलाइन में कई मॉड्यूल शामिल हैं जो क्रमिक रूप से कच्चे वीडियो से जानकारी निकालते हैं और अंततः आराम से गेंद के विश्व निर्देशांक की भविष्यवाणी करते हैं। प्रारंभ में, पिक्सेल क्षेत्र को कम करने के लिए, जिसमें मॉडलों को खिलाड़ियों और गेंदों की खोज करनी होती है, हरेक कैमरे से देखने के बड़े क्षेत्र से हरे रंग को काट दिया जाता है। इसके बाद, देखने के क्षेत्र में लोगों के स्थान का पता लगाने के लिए एक गहरे कन्वेन्शनल न्यूरल नेटवर्क (सीएनएन) का उपयोग किया जाता है। एक अन्य सीएनएन का उपयोग यह अनुमान लगाने के लिए किया जाता है कि किस प्रकार का व्यक्ति पाया गया है ताकि यह निर्धारित किया जा सके कि कोई डालने वाला है या नहीं। संभावित पुटर को दृश्य क्षेत्र में स्थानीयकृत करने के बाद, उसी नेटवर्क का उपयोग पुटर के पास गेंद के स्थान की भविष्यवाणी करने के लिए किया जाता है। एक तीसरा सीएनएन अपनी गति के दौरान गेंद को ट्रैक करता है, और अंत में, कैमरा पिक्सेल स्थिति से जीपीएस निर्देशांक तक एक परिवर्तन फ़ंक्शन लागू किया जाता है।

खिलाड़ी का पता लगाना

यद्यपि एक निर्धारित अंतराल पर पूरे 4K फ्रेम पर गेंद का पता लगाने के लिए सीएनएन चलाना संभव होगा, इन कैमरे की दूरी पर गेंद के कोणीय आकार को देखते हुए, कोई भी छोटी सफेद वस्तु एक पहचान को ट्रिगर करती है, जिसके परिणामस्वरूप कई झूठे अलार्म होते हैं। गेंद के लिए संपूर्ण छवि फ़्रेम की खोज से बचने के लिए, खिलाड़ी की मुद्रा और गेंद के स्थान के बीच सहसंबंधों का लाभ उठाना संभव है। जो गेंद डाली जाने वाली है वह खिलाड़ी के बगल में होनी चाहिए, इसलिए दृश्य क्षेत्र में खिलाड़ियों को ढूंढने से पिक्सेल क्षेत्र बहुत सीमित हो जाएगा जिसमें डिटेक्टर को गेंद की खोज करनी होगी।

हम एक सीएनएन का उपयोग करने में सक्षम थे जो एक दृश्य में सभी लोगों के आसपास बाउंडिंग बॉक्स की भविष्यवाणी करने के लिए पूर्व-प्रशिक्षित था, जैसा कि निम्नलिखित आंकड़े में दिखाया गया है। दुर्भाग्य से, हरे रंग पर अक्सर एक से अधिक गेंदें होती हैं, इसलिए सभी लोगों को ढूंढने और एक गेंद की खोज करने से परे अतिरिक्त तर्क की आवश्यकता होती है। इसके लिए उस खिलाड़ी को ढूंढने के लिए किसी अन्य सीएनएन की आवश्यकता होती है जो वर्तमान में डाल रहा था।

खिलाड़ी वर्गीकरण और गेंद का पता लगाना

गेंद कहां हो सकती है, इसे और सीमित करने के लिए, हमने हरे रंग के सभी लोगों को वर्गीकृत करने के लिए एक पूर्व-प्रशिक्षित ऑब्जेक्ट-डिटेक्शन सीएनएन (YOLO v7) को ठीक किया। इस प्रक्रिया का एक महत्वपूर्ण घटक सेजमेकर ग्राउंड ट्रुथ का उपयोग करके छवियों के एक सेट को मैन्युअल रूप से लेबल करना था। लेबल ने सीएनएन को उच्च सटीकता के साथ खिलाड़ी को वर्गीकृत करने की अनुमति दी। लेबलिंग प्रक्रिया में, खिलाड़ी के डालने के साथ-साथ गेंद की रूपरेखा भी तैयार की गई थी, इसलिए यह सीएनएन गेंद का पता लगाने में भी सक्षम था, पुट से पहले गेंद के चारों ओर एक प्रारंभिक बाउंडिंग बॉक्स खींचना और स्थिति की जानकारी को डाउनस्ट्रीम बॉल ट्रैकिंग सीएनएन में फीड करना .

हम छवियों में वस्तुओं को एनोटेट करने के लिए चार अलग-अलग लेबल का उपयोग करते हैं:

  • खिलाड़ी लगाना - खिलाड़ी एक क्लब पकड़े हुए और पुट लगाने की स्थिति में
  • खिलाड़ी-नहीं-डालना - जो खिलाड़ी पुट लगाने की स्थिति में नहीं है (वह क्लब भी पकड़ सकता है)
  • अन्य व्यक्ति - कोई अन्य व्यक्ति जो खिलाड़ी नहीं है
  • गोल्फ की गेंद – गोल्फ की गेंद

निम्नलिखित आंकड़े से पता चलता है कि प्रत्येक व्यक्ति को दृश्य क्षेत्र में वर्गीकृत करने के लिए सेजमेकर ग्राउंड ट्रुथ के लेबल का उपयोग करके सीएनएन को ठीक किया गया था। खिलाड़ियों, कैडीज़ और प्रशंसकों की दृश्य उपस्थिति की विस्तृत श्रृंखला के कारण यह मुश्किल है। किसी खिलाड़ी को पुटिंग के रूप में वर्गीकृत किए जाने के बाद, गेंद का पता लगाने के लिए एक सीएनएन को उस खिलाड़ी के आसपास के छोटे से क्षेत्र में तुरंत लागू किया गया था।

गेंद पथ ट्रैकिंग

गति ट्रैकिंग के लिए पूर्व-प्रशिक्षित एक तीसरा सीएनएन, एक रेसनेट आर्किटेक्चर, गेंद डालने के बाद उस पर नज़र रखने के लिए उपयोग किया गया था। मोशन ट्रैकिंग एक पूरी तरह से शोधित समस्या है, इसलिए इस नेटवर्क ने बिना किसी बेहतर ट्यूनिंग के पाइपलाइन में एकीकृत होने पर अच्छा प्रदर्शन किया।

पाइपलाइन आउटपुट

सीएनएन का झरना लोगों के चारों ओर बाउंडिंग बॉक्स रखता है, लोगों को हरे रंग में वर्गीकृत करता है, प्रारंभिक गेंद की स्थिति का पता लगाता है, और गेंद के हिलने के बाद उसे ट्रैक करता है। निम्नलिखित चित्र पाइपलाइन के लेबल किए गए वीडियो आउटपुट को दर्शाता है। जैसे ही गेंद चलती है उसकी पिक्सेल स्थिति को ट्रैक और रिकॉर्ड किया जाता है। ध्यान दें कि हरे रंग के लोगों को बाउंडिंग बॉक्स द्वारा ट्रैक और रेखांकित किया जा रहा है; नीचे के पुटर को सही ढंग से "प्लेयर पुटिंग" के रूप में लेबल किया गया है, और चलती गेंद को एक छोटे नीले बाउंडिंग बॉक्स द्वारा ट्रैक और रेखांकित किया जा रहा है।

प्रदर्शन

पाइपलाइन के घटकों के प्रदर्शन का आकलन करने के लिए, लेबल किया गया डेटा होना आवश्यक है। हालाँकि हमें गेंद की जमीनी सच्चाई की विश्व स्थिति प्रदान की गई थी, लेकिन हमारे पास जमीनी सच्चाई के लिए मध्यवर्ती बिंदु नहीं थे, जैसे गेंद की अंतिम पिक्सेल स्थिति या खिलाड़ी द्वारा डालने का पिक्सेल स्थान। हमारे द्वारा किए गए लेबलिंग कार्य के साथ, हमने पाइपलाइन के इन मध्यवर्ती आउटपुट के लिए जमीनी सच्चाई डेटा विकसित किया जो हमें प्रदर्शन को मापने की अनुमति देता है।

खिलाड़ी वर्गीकरण और गेंद का पता लगाने की सटीकता

खिलाड़ी द्वारा डालने और शुरुआती गेंद के स्थान का पता लगाने के लिए, हमने एक डेटासेट लेबल किया और एक YOLO v7 CNN मॉडल को ठीक किया जैसा कि पहले बताया गया है। मॉडल ने पिछले व्यक्ति पहचान मॉड्यूल से आउटपुट को चार वर्गों में वर्गीकृत किया: एक खिलाड़ी डाल रहा है, एक खिलाड़ी नहीं डाल रहा है, अन्य लोग और गोल्फ बॉल, जैसा कि निम्नलिखित आंकड़े में दिखाया गया है।

इस मॉड्यूल के प्रदर्शन का मूल्यांकन एक भ्रम मैट्रिक्स के साथ किया जाता है, जिसे निम्नलिखित चित्र में दिखाया गया है। विकर्ण बक्से में मान दर्शाते हैं कि अनुमानित वर्ग कितनी बार जमीनी सच्चाई लेबल से वास्तविक वर्ग से मेल खाता है। मॉडल में प्रत्येक व्यक्ति वर्ग के लिए 89% या बेहतर रिकॉल है, और गोल्फ गेंदों के लिए 79% रिकॉल है (जो कि अपेक्षित है क्योंकि मॉडल लोगों के साथ उदाहरणों पर पूर्व-प्रशिक्षित है, लेकिन गोल्फ गेंदों के साथ उदाहरणों पर नहीं; इसके साथ सुधार किया जा सकता है) प्रशिक्षण सेट में अधिक लेबल वाली गोल्फ गेंदें)।

अगला कदम बॉल ट्रैकर को ट्रिगर करना है। क्योंकि गेंद का पता लगाने का आउटपुट एक आत्मविश्वास की संभावना है, इसलिए "पहचानी गई गेंद" के लिए सीमा निर्धारित करना और यह देखना भी संभव है कि यह परिणामों को कैसे बदलता है, निम्नलिखित आंकड़े में संक्षेपित किया गया है। इस विधि में एक व्यापार-बंद है क्योंकि उच्च सीमा में आवश्यक रूप से कम झूठे अलार्म होंगे लेकिन गेंदों के कुछ कम निश्चित उदाहरण भी छूट जाएंगे। हमने 20% और 50% आत्मविश्वास की सीमा का परीक्षण किया, और क्रमशः 78% और 61% पर गेंद का पता लगाना पाया। इस उपाय से, 20% सीमा बेहतर है। व्यापार-बंद स्पष्ट है कि 20% विश्वास सीमा के लिए, कुल पहचान का 80% वास्तव में गेंदें थीं (20% गलत सकारात्मक), जबकि 50% आत्मविश्वास सीमा के लिए, 90% गेंदें थीं (10% गलत सकारात्मक)। कम झूठी सकारात्मकताओं के लिए, 50% विश्वास सीमा बेहतर है। बड़े प्रशिक्षण सेट के लिए अधिक लेबल किए गए डेटा के साथ इन दोनों उपायों को बेहतर बनाया जा सकता है।

डिटेक्शन पाइपलाइन थ्रूपुट 10 फ्रेम प्रति सेकंड के क्रम पर है, इसलिए अपने वर्तमान स्वरूप में, एक भी उदाहरण इतना तेज़ नहीं है कि इनपुट पर 50 फ्रेम प्रति सेकंड पर लगातार चलाया जा सके। बॉल स्टेप्स के बाद आउटपुट के लिए 7-सेकंड का निशान हासिल करने के लिए विलंबता के लिए और अधिक अनुकूलन की आवश्यकता होगी, शायद समानांतर में पाइपलाइन के कई संस्करणों को चलाकर और परिमाणीकरण के माध्यम से सीएनएन मॉडल को संपीड़ित करके (उदाहरण के लिए)।

गेंद पथ ट्रैकिंग सटीकता

एमएमट्रैकिंग से पूर्व-प्रशिक्षित सीएनएन मॉडल अच्छी तरह से काम करता है, लेकिन दिलचस्प विफलता के मामले भी हैं। निम्नलिखित आंकड़ा एक ऐसा मामला दिखाता है जहां ट्रैकर गेंद पर शुरू होता है, पुटर हेड और गेंद दोनों को शामिल करने के लिए अपने बाउंडिंग बॉक्स का विस्तार करता है, और फिर दुर्भाग्य से पुटर हेड को ट्रैक करता है और गेंद को भूल जाता है। इस मामले में, पुटर हेड सफेद दिखाई देता है (संभवतः स्पेक्युलर प्रतिबिंब के कारण), इसलिए भ्रम समझ में आता है; ट्रैकिंग सीएनएन की ट्रैकिंग और फाइन-ट्यूनिंग के लिए लेबल किया गया डेटा भविष्य में इसे बेहतर बनाने में मदद कर सकता है।

निष्कर्ष

इस पोस्ट में, हमने एक मॉड्यूलर पाइपलाइन के विकास पर चर्चा की जो कैमरे के दृश्य क्षेत्र के भीतर खिलाड़ियों को स्थानीयकृत करती है, यह निर्धारित करती है कि कौन सा खिलाड़ी डाल रहा है, और कप की ओर बढ़ने पर गेंद को ट्रैक करता है।

पीजीए टूर के साथ एडब्ल्यूएस सहयोग के बारे में अधिक जानकारी के लिए देखें पीजीए टूर ने प्रशंसक अनुभव को फिर से कल्पना करने के लिए एडब्ल्यूएस के साथ गठजोड़ किया है.


लेखक के बारे में

जेम्स गोल्डन मशीन लर्निंग और न्यूरोसाइंस में पृष्ठभूमि के साथ अमेज़ॅन बेडरॉक में एक व्यावहारिक वैज्ञानिक हैं।

हेनरी वांग अमेज़ॅन जेनेरेटिव एआई इनोवेशन सेंटर में एक व्यावहारिक वैज्ञानिक हैं, जहां वह एडब्ल्यूएस ग्राहकों के लिए जेनेरेटिव एआई समाधानों पर शोध और निर्माण करते हैं। वह खेल और मीडिया एवं मनोरंजन उद्योगों पर ध्यान केंद्रित करते हैं, और अतीत में विभिन्न खेल लीगों, टीमों और प्रसारकों के साथ काम कर चुके हैं। अपने खाली समय में वह टेनिस और गोल्फ खेलना पसंद करते हैं।

त्रयंबक गंगोपाध्याय एडब्ल्यूएस जेनरेटिव एआई इनोवेशन सेंटर में एक एप्लाइड साइंटिस्ट हैं, जहां वह विभिन्न उद्योगों के संगठनों के साथ सहयोग करते हैं। उनकी भूमिका में महत्वपूर्ण व्यावसायिक चुनौतियों का समाधान करने और एआई अपनाने में तेजी लाने के लिए अनुसंधान करना और जेनरेटिव एआई समाधान विकसित करना शामिल है।

समय टिकट:

से अधिक AWS मशीन लर्निंग