Παρακολούθηση θέσης μπάλας στο σύννεφο με το PGA TOUR | Υπηρεσίες Ιστού της Amazon

Παρακολούθηση θέσης μπάλας στο σύννεφο με το PGA TOUR | Υπηρεσίες Ιστού της Amazon

Κόμβος πηγής: 3057379

Το PGA TOUR συνεχίζει να βελτιώνει την εμπειρία του γκολφ με δεδομένα σε πραγματικό χρόνο που φέρνουν τους θαυμαστές πιο κοντά στο παιχνίδι. Για να προσφέρουν ακόμα πιο πλούσιες εμπειρίες, επιδιώκουν την ανάπτυξη ενός συστήματος παρακολούθησης θέσης μπάλας επόμενης γενιάς που παρακολουθεί αυτόματα τη θέση της μπάλας στο πράσινο.

Το TOUR χρησιμοποιεί αυτήν τη στιγμή το ShotLink που υποστηρίζεται από το CDW, ένα κορυφαίο σύστημα βαθμολόγησης που χρησιμοποιεί ένα σύνθετο σύστημα κάμερας με επιτόπιο υπολογισμό, για να παρακολουθεί προσεκτικά τη θέση έναρξης και λήξης κάθε λήψης. Το TOUR ήθελε να εξερευνήσει τεχνικές όρασης υπολογιστών και μηχανικής μάθησης (ML) για να αναπτύξει έναν αγωγό επόμενης γενιάς βασισμένου σε σύννεφο για να εντοπίσει μπάλες του γκολφ στο πράσινο.

Το Amazon Generative AI Innovation Center (GAIIC) έδειξε την αποτελεσματικότητα αυτών των τεχνικών σε ένα παράδειγμα δεδομένων από μια πρόσφατη εκδήλωση PGA TOUR. Το GAIIC σχεδίασε έναν αρθρωτό αγωγό που κατακλύζει μια σειρά από βαθιά συνελικτικά νευρωνικά δίκτυα που εντοπίζει με επιτυχία τους παίκτες μέσα στο οπτικό πεδίο μιας κάμερας, καθορίζει ποιος παίκτης βάζει και παρακολουθεί την μπάλα καθώς κινείται προς το κύπελλο.

Σε αυτήν την ανάρτηση, περιγράφουμε την ανάπτυξη αυτού του αγωγού, τα πρωτογενή δεδομένα, τον σχεδιασμό των συνελικτικών νευρωνικών δικτύων που αποτελούν τον αγωγό και μια αξιολόγηση της απόδοσής του.

ημερομηνία

Το TOUR παρείχε 3 ημέρες συνεχούς βίντεο από ένα πρόσφατο τουρνουά από τρεις κάμερες 4K τοποθετημένες γύρω από το πράσινο σε μία τρύπα. Το παρακάτω σχήμα δείχνει ένα καρέ από μια κάμερα που έχει περικοπεί και έχει γίνει μεγέθυνση έτσι ώστε η τοποθέτηση της συσκευής αναπαραγωγής να είναι εύκολα ορατή. Σημειώστε ότι παρά την υψηλή ανάλυση των καμερών, λόγω της απόστασης από το πράσινο, η μπάλα φαίνεται μικρή (συνήθως 3×3, 4×4 ή 5×5 pixel) και οι στόχοι αυτού του μεγέθους μπορεί να είναι δύσκολο να εντοπιστούν με ακρίβεια.

Εκτός από τις ροές της κάμερας, το TOUR παρείχε στο GAIIC σχολιασμένα δεδομένα βαθμολογίας σε κάθε λήψη, συμπεριλαμβανομένης της παγκόσμιας τοποθεσίας της θέσης ανάπαυσης και της χρονικής σφραγίδας. Αυτό επέτρεψε την οπτικοποίηση κάθε πλασέ στο πράσινο, καθώς και τη δυνατότητα να τραβήξετε όλα τα βίντεο κλιπ των παικτών που έβαζαν, τα οποία θα μπορούσαν να επισημανθούν χειροκίνητα και να χρησιμοποιηθούν για την εκπαίδευση μοντέλων ανίχνευσης που συνθέτουν τον αγωγό. Το παρακάτω σχήμα δείχνει τις τρεις προβολές της κάμερας με κατά προσέγγιση επικαλύψεις διαδρομής putt, αριστερόστροφα από πάνω αριστερά. Η καρφίτσα μετακινείται κάθε μέρα, όπου η ημέρα 1 αντιστοιχεί σε μπλε, η ημέρα 2 σε κόκκινο και η ημέρα 3 αντιστοιχεί σε πορτοκαλί.

Επισκόπηση αγωγού

Το συνολικό σύστημα αποτελείται από έναν αγωγό εκπαίδευσης και από έναν αγωγό συμπερασμάτων. Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική του αγωγού εκπαίδευσης. Το σημείο εκκίνησης είναι η απορρόφηση δεδομένων βίντεο, είτε από μια μονάδα ροής όπως Amazon Kinesis για ζωντανό βίντεο ή τοποθέτηση απευθείας σε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) για ιστορικό βίντεο. Ο αγωγός εκπαίδευσης απαιτεί προεπεξεργασία βίντεο και χειροκίνητη επισήμανση εικόνων με Amazon SageMaker Ground Αλήθεια. Τα μοντέλα μπορούν να εκπαιδευτούν με Amazon Sage Maker και τα τεχνουργήματά τους αποθηκεύονται με το Amazon S3.

Ο αγωγός συμπερασμάτων, που φαίνεται στο παρακάτω διάγραμμα, αποτελείται από έναν αριθμό ενοτήτων που εξάγουν διαδοχικά πληροφορίες από το ακατέργαστο βίντεο και τελικά προβλέπουν τις παγκόσμιες συντεταγμένες της μπάλας σε ηρεμία. Αρχικά, το πράσινο κόβεται από το μεγαλύτερο οπτικό πεδίο από κάθε κάμερα, προκειμένου να μειωθεί η περιοχή των pixel στην οποία τα μοντέλα πρέπει να αναζητήσουν παίκτες και μπάλες. Στη συνέχεια, ένα βαθύ συνελικτικό νευρωνικό δίκτυο (CNN) χρησιμοποιείται για να βρει τις θέσεις των ανθρώπων στο οπτικό πεδίο. Ένα άλλο CNN χρησιμοποιείται για να προβλέψει ποιος τύπος ατόμου έχει βρεθεί, προκειμένου να καθοριστεί αν κάποιος πρόκειται να κάνει κτύπημα. Αφού εντοπιστεί ένας πιθανός παίκτης στο οπτικό πεδίο, το ίδιο δίκτυο χρησιμοποιείται για την πρόβλεψη της θέσης της μπάλας κοντά στον παίκτη. Ένα τρίτο CNN παρακολουθεί τη μπάλα κατά την κίνησή της και, τέλος, εφαρμόζεται μια συνάρτηση μετασχηματισμού από τη θέση pixel της κάμερας στις συντεταγμένες GPS.

Ανίχνευση παίκτη

Αν και θα ήταν δυνατό να εκτελεστεί ένα CNN για ανίχνευση μπάλας σε ένα ολόκληρο πλαίσιο 4K σε ένα καθορισμένο διάστημα, δεδομένου του γωνιακού μεγέθους της μπάλας σε αυτές τις αποστάσεις της κάμερας, οποιοδήποτε μικρό λευκό αντικείμενο ενεργοποιεί μια ανίχνευση, με αποτέλεσμα πολλούς ψευδείς συναγερμούς. Για να αποφύγετε την αναζήτηση της μπάλας σε ολόκληρο το πλαίσιο της εικόνας, μπορείτε να επωφεληθείτε από τις συσχετίσεις μεταξύ της πόζας του παίκτη και της θέσης της μπάλας. Μια μπάλα που πρόκειται να τοποθετηθεί πρέπει να βρίσκεται δίπλα σε έναν παίκτη, επομένως η εύρεση των παικτών στο οπτικό πεδίο θα περιορίσει σημαντικά την περιοχή των εικονοστοιχείων στην οποία ο ανιχνευτής πρέπει να αναζητήσει την μπάλα.

Μπορέσαμε να χρησιμοποιήσουμε ένα CNN που ήταν προεκπαιδευμένο για την πρόβλεψη οριοθέτησης πλαισίων γύρω από όλα τα άτομα σε μια σκηνή, όπως φαίνεται στο παρακάτω σχήμα. Δυστυχώς, συχνά υπάρχουν περισσότερες από μία μπάλες στο πράσινο, επομένως απαιτείται περαιτέρω λογική πέρα ​​από την απλή εύρεση όλων των ανθρώπων και την αναζήτηση μιας μπάλας. Αυτό απαιτεί ένα άλλο CNN για να βρει τη συσκευή αναπαραγωγής που έβαζε αυτήν τη στιγμή.

Ταξινόμηση παικτών και ανίχνευση μπάλας

Για να περιορίσουμε περαιτέρω το σημείο που θα μπορούσε να βρίσκεται η μπάλα, ρυθμίσαμε ένα προ-εκπαιδευμένο CNN ανίχνευσης αντικειμένων (YOLO v7) για να ταξινομήσουμε όλα τα άτομα στο πράσινο. Ένα σημαντικό στοιχείο αυτής της διαδικασίας ήταν η μη αυτόματη επισήμανση ενός συνόλου εικόνων χρησιμοποιώντας το SageMaker Ground Truth. Οι ετικέτες επέτρεψαν στο CNN να ταξινομήσει τον παίκτη που βάζει με υψηλή ακρίβεια. Στη διαδικασία επισήμανσης, η μπάλα περιγραφόταν επίσης μαζί με τον παίκτη που έβαλε, έτσι αυτό το CNN ήταν σε θέση να εκτελέσει επίσης ανίχνευση μπάλας, σχεδιάζοντας ένα αρχικό πλαίσιο οριοθέτησης γύρω από την μπάλα πριν από ένα πότ και τροφοδοτώντας τις πληροφορίες θέσης στο CNN παρακολούθησης μπάλας κατάντη. .

Χρησιμοποιούμε τέσσερις διαφορετικές ετικέτες για να σχολιάσουμε τα αντικείμενα στις εικόνες:

  • βάζοντας παίκτη – Ο παίκτης που κρατά ρόπαλο και βρίσκεται στη θέση του πλασέ
  • παίκτης-δεν βάζει – Ο παίκτης που δεν βρίσκεται στη θέση του πλασέ (μπορεί επίσης να κρατά σύλλογο)
  • άλλο πρόσωπο – Κάθε άλλο άτομο που δεν είναι παίκτης
  • μπαλάκι του γκολφ – Η μπάλα του γκολφ

Το παρακάτω σχήμα δείχνει ότι ένα CNN ρυθμίστηκε με ακρίβεια χρησιμοποιώντας ετικέτες από το SageMaker Ground Truth για να ταξινομήσει κάθε άτομο στο οπτικό πεδίο. Αυτό είναι δύσκολο λόγω του μεγάλου εύρους οπτικών εμφανίσεων παικτών, φίλων και οπαδών. Αφού ένας παίκτης ταξινομήθηκε ως παίκτης που έβαλε, εφαρμόστηκε ένα CNN προσαρμοσμένο για ανίχνευση μπάλας στη μικρή περιοχή ακριβώς γύρω από αυτόν τον παίκτη.

Παρακολούθηση διαδρομής μπάλας

Ένα τρίτο CNN, μια αρχιτεκτονική ResNet προεκπαιδευμένη για παρακολούθηση κίνησης, χρησιμοποιήθηκε για την παρακολούθηση της μπάλας μετά την τοποθέτησή της. Η παρακολούθηση κίνησης είναι ένα πρόβλημα που έχει ερευνηθεί διεξοδικά, επομένως αυτό το δίκτυο είχε καλή απόδοση όταν ενσωματώθηκε στον αγωγό χωρίς περαιτέρω λεπτομέρεια.

Έξοδος αγωγού

Ο καταρράκτης των CNN τοποθετεί οριοθετημένα κουτιά γύρω από ανθρώπους, ταξινομεί τους ανθρώπους στο πράσινο, ανιχνεύει την αρχική θέση της μπάλας και παρακολουθεί τη μπάλα μόλις αρχίσει να κινείται. Το παρακάτω σχήμα δείχνει την ονομασμένη έξοδο βίντεο του αγωγού. Οι θέσεις των pixel της μπάλας καθώς κινείται παρακολουθούνται και καταγράφονται. Σημειώστε ότι τα άτομα στο πράσινο παρακολουθούνται και περιγράφονται με οριοθετημένα πλαίσια. ο παίκτης στο κάτω μέρος επισημαίνεται σωστά ως "παίκτης που βάζει" και η κινούμενη μπάλα παρακολουθείται και σκιαγραφείται από ένα μικρό μπλε πλαίσιο οριοθέτησης.

επίδοση

Για την αξιολόγηση της απόδοσης των στοιχείων του αγωγού, είναι απαραίτητο να υπάρχουν δεδομένα με ετικέτα. Παρόλο που μας παρασχέθηκε η επίγεια αληθινή παγκόσμια θέση της μπάλας, δεν είχαμε ενδιάμεσα σημεία για την αλήθεια εδάφους, όπως η τελική θέση pixel της μπάλας ή η θέση pixel του παίκτη που έβαλε. Με την εργασία επισήμανσης που πραγματοποιήσαμε, αναπτύξαμε δεδομένα βασικής αλήθειας για αυτές τις ενδιάμεσες εξόδους του αγωγού που μας επιτρέπουν να μετράμε την απόδοση.

Ταξινόμηση παικτών και ακρίβεια ανίχνευσης μπάλας

Για τον εντοπισμό του παίκτη που έβαλε και την αρχική θέση της μπάλας, επισημάναμε ένα σύνολο δεδομένων και βελτιστοποιήσαμε ένα μοντέλο YOLO v7 CNN όπως περιγράφηκε προηγουμένως. Το μοντέλο ταξινόμησε την έξοδο από την προηγούμενη μονάδα ανίχνευσης ατόμου σε τέσσερις κατηγορίες: έναν παίκτη που βάζει, έναν παίκτη που δεν βάζει, άλλα άτομα και τη μπάλα του γκολφ, όπως φαίνεται στο παρακάτω σχήμα.

Η απόδοση αυτής της ενότητας αξιολογείται με έναν πίνακα σύγχυσης, που φαίνεται στο παρακάτω σχήμα. Οι τιμές στα διαγώνια πλαίσια δείχνουν πόσο συχνά η προβλεπόμενη τάξη ταίριαζε με την πραγματική κλάση από τις ετικέτες αληθείας βάσης. Το μοντέλο έχει 89% ανάκληση ή καλύτερα για κάθε κατηγορία ατόμων και 79% ανάκληση για μπάλες του γκολφ (κάτι αναμενόμενο επειδή το μοντέλο είναι προεκπαιδευμένο σε παραδείγματα με άτομα αλλά όχι σε παραδείγματα με μπάλες του γκολφ. Αυτό θα μπορούσε να βελτιωθεί με περισσότερες επισημασμένες μπάλες του γκολφ στο σετ προπόνησης).

Το επόμενο βήμα είναι να ενεργοποιήσετε τον ιχνηλάτη της μπάλας. Επειδή η έξοδος ανίχνευσης μπάλας είναι μια πιθανότητα εμπιστοσύνης, είναι επίσης δυνατό να ορίσετε το όριο για την «ανιχνευόμενη μπάλα» και να παρατηρήσετε πώς αυτό αλλάζει τα αποτελέσματα, που συνοψίζονται στο παρακάτω σχήμα. Υπάρχει μια αντιστάθμιση σε αυτή τη μέθοδο, επειδή ένα υψηλότερο όριο θα έχει αναγκαστικά λιγότερους ψευδείς συναγερμούς αλλά θα χάσει επίσης μερικά από τα λιγότερο σίγουρα παραδείγματα μπάλες. Δοκιμάσαμε τα κατώφλια εμπιστοσύνης 20% και 50% και βρήκαμε ανίχνευση μπάλας στο 78% και 61%, αντίστοιχα. Με αυτό το μέτρο, το όριο του 20% είναι καλύτερο. Η αντιστάθμιση είναι προφανής στο ότι για το όριο εμπιστοσύνης 20%, το 80% των συνολικών ανιχνεύσεων ήταν στην πραγματικότητα μπάλες (20% ψευδώς θετικά), ενώ για το όριο εμπιστοσύνης 50%, το 90% ήταν μπάλες (10% ψευδώς θετικά). Για λιγότερα ψευδώς θετικά, το όριο εμπιστοσύνης 50% είναι καλύτερο. Και τα δύο αυτά μέτρα θα μπορούσαν να βελτιωθούν με πιο επισημασμένα δεδομένα για ένα μεγαλύτερο σετ εκπαίδευσης.

Η απόδοση του αγωγού ανίχνευσης είναι της τάξης των 10 καρέ ανά δευτερόλεπτο, επομένως στην τρέχουσα μορφή της, μια μεμονωμένη παρουσία δεν είναι αρκετά γρήγορη ώστε να εκτελείται συνεχώς στην είσοδο με 50 καρέ ανά δευτερόλεπτο. Η επίτευξη του δείκτη των 7 δευτερολέπτων για την έξοδο μετά τα βήματα της μπάλας θα απαιτούσε περαιτέρω βελτιστοποίηση για λανθάνουσα κατάσταση, ίσως με την παράλληλη εκτέλεση πολλαπλών εκδόσεων του αγωγού και τη συμπίεση των μοντέλων CNN μέσω κβαντοποίησης (για παράδειγμα).

Ακρίβεια παρακολούθησης διαδρομής μπάλας

Το προεκπαιδευμένο μοντέλο CNN από το MMTracking λειτουργεί καλά, αλλά υπάρχουν ενδιαφέρουσες περιπτώσεις αποτυχίας. Το παρακάτω σχήμα δείχνει μια περίπτωση όπου ο ιχνηλάτης ξεκινάει από την μπάλα, επεκτείνει το πλαίσιο οριοθέτησής του για να συμπεριλάβει και την κεφαλή και τη μπάλα, και στη συνέχεια, δυστυχώς, παρακολουθεί την κεφαλή του παίκτη και ξεχνά τη μπάλα. Σε αυτήν την περίπτωση, η κεφαλή του ποδαριού φαίνεται λευκή (πιθανώς λόγω κατοπτρικής ανάκλασης), οπότε η σύγχυση είναι κατανοητή. Τα δεδομένα με ετικέτα για την παρακολούθηση και τη λεπτομέρεια του CNN παρακολούθησης θα μπορούσαν να συμβάλουν στη βελτίωσή τους στο μέλλον.

Συμπέρασμα

Σε αυτήν την ανάρτηση, συζητήσαμε την ανάπτυξη ενός αρθρωτού αγωγού που εντοπίζει τους παίκτες μέσα στο οπτικό πεδίο μιας κάμερας, καθορίζει ποιος παίκτης βάζει και παρακολουθεί την μπάλα καθώς κινείται προς το κύπελλο.

Για περισσότερες πληροφορίες σχετικά με τη συνεργασία του AWS με το PGA TOUR, ανατρέξτε στο Το PGA TOUR συνεργάζεται με το AWS για να επαναλάβετε την εμπειρία των θαυμαστών.


Σχετικά με τους Συγγραφείς

Τζέιμς Γκόλντεν είναι εφαρμοσμένος επιστήμονας στο Amazon Bedrock με υπόβαθρο στη μηχανική μάθηση και τη νευροεπιστήμη.

Χένρι Γουάνγκ είναι εφαρμοσμένος επιστήμονας στο Amazon Generative AI Innovation Center, όπου ερευνά και κατασκευάζει παραγωγικές λύσεις AI για πελάτες AWS. Επικεντρώνεται στον αθλητισμό και στον κλάδο των μέσων ενημέρωσης και της ψυχαγωγίας και έχει συνεργαστεί με διάφορα αθλητικά πρωταθλήματα, ομάδες και ραδιοτηλεοπτικούς φορείς στο παρελθόν. Στον ελεύθερο χρόνο του, του αρέσει να παίζει τένις και γκολφ.

Tryambak Gangopadhyay είναι Εφαρμοσμένος Επιστήμονας στο AWS Generative AI Innovation Center, όπου συνεργάζεται με οργανισμούς σε ένα ευρύ φάσμα βιομηχανιών. Ο ρόλος του περιλαμβάνει τη διεξαγωγή έρευνας και την ανάπτυξη λύσεων Generative AI για την αντιμετώπιση κρίσιμων επιχειρηματικών προκλήσεων και την επιτάχυνση της υιοθέτησης της τεχνητής νοημοσύνης.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS