PGA TOUR ile bulutta top pozisyonu takibi | Amazon Web Hizmetleri

PGA TOUR ile bulutta top pozisyonu takibi | Amazon Web Hizmetleri

Kaynak Düğüm: 3057379

PGA TOUR, golf tutkunlarını oyuna daha da yakınlaştıran gerçek zamanlı verilerle golf deneyimini geliştirmeye devam ediyor. Daha da zengin deneyimler sunmak için topun sahadaki konumunu otomatik olarak izleyen yeni nesil bir top konumu izleme sistemi geliştirmeyi sürdürüyorlar.

TOUR şu anda her çekimin başlangıç ​​ve bitiş konumunu yakından takip etmek için yerinde hesaplamalı karmaşık bir kamera sistemi kullanan birinci sınıf bir puanlama sistemi olan CDW destekli ShotLink'i kullanıyor. TOUR, sahadaki golf toplarının yerini belirlemek için yeni nesil bulut tabanlı bir boru hattı geliştirmek amacıyla bilgisayarla görme ve makine öğrenimi (ML) tekniklerini araştırmak istiyordu.

Amazon Generative AI İnovasyon Merkezi (GAIIC), yakın zamanda düzenlenen bir PGA TOUR etkinliğinden alınan örnek bir veri kümesinde bu tekniklerin etkinliğini gösterdi. GAIIC, oyuncuları bir kameranın görüş alanı içinde başarılı bir şekilde konumlandıran, hangi oyuncunun atacağını belirleyen ve kupaya doğru hareket eden topu takip eden bir dizi derin evrişimli sinir ağını basamaklandıran modüler bir boru hattı tasarladı.

Bu yazıda bu boru hattının gelişimini, ham verileri, boru hattını oluşturan evrişimli sinir ağlarının tasarımını ve performansının değerlendirilmesini açıklayacağız.

Veri

TOUR, sahanın etrafında tek bir deliğe konumlandırılan üç adet 3K kameradan yakın zamanda yapılan bir turnuvanın 4 günlük sürekli videosunu sağladı. Aşağıdaki şekil, oyuncunun yerleştirmesinin kolayca görülebilmesi için kırpılmış ve yakınlaştırılmış bir kameradan bir kareyi göstermektedir. Kameraların yüksek çözünürlüğüne rağmen, green'e olan mesafe nedeniyle topun küçük göründüğünü (genellikle 3×3, 4×4 veya 5×5 piksel) ve bu boyuttaki hedeflerin doğru şekilde konumlandırılmasının zor olabileceğini unutmayın.

Kamera yayınlarına ek olarak TOUR, GAIIC'e her çekimde dinlenme konumunun dünya konumu ve zaman damgası da dahil olmak üzere açıklamalı puanlama verileri sağladı. Bu, sahadaki her vuruşun görselleştirilmesinin yanı sıra, elle etiketlenebilen ve boru hattını oluşturan algılama modellerini eğitmek için kullanılabilen, vuruş yapan oyuncuların tüm video kliplerini çekme becerisine de olanak sağladı. Aşağıdaki şekil sol üstten saat yönünün tersine yaklaşık vuruş yolu katmanlarıyla birlikte üç kamera görüntüsünü göstermektedir. Pim her gün hareket ettirilir; 1. gün maviye, 2. gün kırmızıya ve 3. gün turuncuya karşılık gelir.

Boru hattına genel bakış

Sistemin tamamı hem eğitim hattından hem de çıkarım hattından oluşur. Aşağıdaki diyagram eğitim hattının mimarisini göstermektedir. Başlangıç ​​noktası, video verilerinin aşağıdaki gibi bir akış modülünden alınmasıdır: Amazon Kinesis canlı video veya doğrudan yerleştirme için Amazon Basit Depolama Hizmeti (Amazon S3) tarihsel video için. Eğitim hattı, video ön işlemeyi ve görüntülerin elle etiketlenmesini gerektirir. Amazon SageMaker Yer Gerçeği. Modeller eğitilebilir Amazon Adaçayı Yapıcı ve bunların yapıları Amazon S3'te depolanıyor.

Aşağıdaki diyagramda gösterilen çıkarım hattı, ham videodan art arda bilgi çıkaran ve sonuçta hareketsiz topun dünya koordinatlarını tahmin eden bir dizi modülden oluşur. Başlangıçta, modellerin oyuncuları ve topları araması gereken piksel alanını azaltmak için her kameranın daha geniş görüş alanından yeşil kırpılır. Daha sonra, görüş alanındaki insanların konumlarını bulmak için derin bir evrişimli sinir ağı (CNN) kullanılır. Başka bir CNN, herhangi birinin vuruş yapmak üzere olup olmadığını belirlemek amacıyla hangi tür kişinin bulunduğunu tahmin etmek için kullanılır. Muhtemel bir golf sopası görüş alanında lokalize edildikten sonra, aynı ağ topun golf sopasının yakınındaki konumunu tahmin etmek için kullanılır. Üçüncü bir CNN, topun hareketi sırasında topu takip ediyor ve son olarak kamera piksel konumundan GPS koordinatlarına bir dönüşüm fonksiyonu uygulanıyor.

Oyuncu tespiti

Top tespiti için bir CNN'yi belirli bir aralıkta 4K karenin tamamında çalıştırmak mümkün olsa da, topun bu kamera mesafelerindeki açısal boyutu göz önüne alındığında, herhangi bir küçük beyaz nesne bir algılamayı tetikleyerek birçok yanlış alarma neden olur. Topun görüntü çerçevesinin tamamında aranmasını önlemek için, oyuncu pozu ile topun konumu arasındaki korelasyonlardan faydalanmak mümkündür. Koymak üzere olan topun bir oyuncunun yanında olması gerekir, dolayısıyla oyuncuları görüş alanında bulmak, dedektörün topu araması gereken piksel alanını büyük ölçüde kısıtlayacaktır.

Aşağıdaki şekilde gösterildiği gibi, bir sahnedeki tüm insanların etrafındaki sınırlayıcı kutuları tahmin etmek için önceden eğitilmiş bir CNN kullanabildik. Ne yazık ki, sahada sıklıkla birden fazla top bulunur, dolayısıyla tüm insanları bulmanın ve bir top aramanın ötesinde daha fazla mantık gerekir. Bu, o anda koyan oyuncuyu bulmak için başka bir CNN'i gerektirir.

Oyuncu sınıflandırması ve top tespiti

Topun bulunabileceği yeri daha da daraltmak amacıyla, yeşil alandaki tüm insanları sınıflandırmak için önceden eğitilmiş bir nesne algılama CNN'sine (YOLO v7) ince ayar yaptık. Bu sürecin önemli bir bileşeni, SageMaker Ground Truth'u kullanarak bir dizi görüntüyü manuel olarak etiketlemekti. Etiketler, CNN'in oyuncunun vuruşunu yüksek doğrulukla sınıflandırmasına olanak tanıdı. Etiketleme sürecinde, oyuncunun vuruşuyla birlikte topun da ana hatları çizildi, böylece bu CNN aynı zamanda top tespitini de gerçekleştirebildi, vuruştan önce topun etrafına bir ilk sınırlayıcı kutu çizdi ve konum bilgisini aşağı yöndeki top izleme CNN'sine besledi. .

Görüntülerdeki nesnelere açıklama eklemek için dört farklı etiket kullanıyoruz:

  • oyuncu koyma – Sopayı tutan ve atma pozisyonundaki oyuncu
  • oyuncu koymayan – Oyuncu vuruş pozisyonunda değil (bir sopayı da tutuyor olabilir)
  • Diğer kişi – Oyuncu olmayan herhangi bir kişi
  • Golf topu – Golf topu

Aşağıdaki şekil, bir CNN'nin, görüş alanındaki her kişiyi sınıflandırmak için SageMaker Ground Truth'un etiketleri kullanılarak ince ayar yaptığını göstermektedir. Oyuncuların, yardımcıların ve taraftarların çok çeşitli görsel görünümleri nedeniyle bu zordur. Bir oyuncu atıcı olarak sınıflandırıldıktan sonra, top tespiti için ince ayarlı bir CNN, o oyuncunun hemen etrafındaki küçük alana uygulandı.

Top yolu takibi

Hareket takibi için önceden eğitilmiş bir ResNet mimarisi olan üçüncü bir CNN, topun atılmasından sonra takip edilmesi için kullanıldı. Hareket izleme kapsamlı bir şekilde araştırılmış bir sorun olduğundan bu ağ, daha fazla ince ayar gerektirmeden boru hattına entegre edildiğinde iyi performans gösterdi.

Boru hattı çıkışı

CNN'ler dizisi, insanların çevresine sınırlayıcı kutular yerleştirir, insanları yeşil alanda sınıflandırır, topun başlangıçtaki konumunu algılar ve hareket etmeye başladığında topu takip eder. Aşağıdaki şekil boru hattının etiketli video çıkışını göstermektedir. Topun hareket ettikçe piksel konumları takip ediliyor ve kaydediliyor. Yeşil alandaki kişilerin sınırlayıcı kutular tarafından takip edildiğini ve ana hatlarının belirlendiğini unutmayın; alttaki atıcı doğru bir şekilde "oyuncu vuruşu" olarak etiketlenmiştir ve hareket eden top küçük mavi bir sınırlayıcı kutu tarafından izlenmekte ve ana hatları çizilmektedir.

Performans

İşlem hattının bileşenlerinin performansını değerlendirmek için etiketli verilere sahip olmak gerekir. Her ne kadar topun temel dünya konumu bize sağlanmış olsa da, topun son piksel konumu veya vuruşu yapan oyuncunun piksel konumu gibi temel gerçek için ara noktalarımız yoktu. Gerçekleştirdiğimiz etiketleme çalışmasıyla boru hattının bu ara çıktıları için performansı ölçmemizi sağlayan temel doğruluk verilerini geliştirdik.

Oyuncu sınıflandırması ve top algılama doğruluğu

Oyuncunun vuruşunu ve ilk top konumunu tespit etmek için bir veri kümesini etiketledik ve daha önce açıklandığı gibi YOLO v7 CNN modeline ince ayar yaptık. Model, önceki kişi algılama modülünden gelen çıktıyı dört sınıfa ayırdı: aşağıdaki şekilde gösterildiği gibi atan oyuncu, atmayan oyuncu, diğer insanlar ve golf topu.

Bu modülün performansı aşağıdaki şekilde gösterilen bir karışıklık matrisi ile değerlendirilir. Çapraz kutulardaki değerler, tahmin edilen sınıfın temel doğruluk etiketlerinden gerçek sınıfla ne sıklıkta eşleştiğini gösterir. Model, her kişi sınıfı için %89 veya daha iyi bir hatırlama oranına ve golf topları için %79 hatırlama oranına sahiptir (bu da beklenen bir durumdur çünkü model insanlarla örnekler üzerinde önceden eğitilmiştir, ancak golf topu örnekleri üzerinde değildir; bu durum aşağıdakilerle geliştirilebilir: eğitim setinde daha fazla etiketli golf topu).

Bir sonraki adım top izleyiciyi tetiklemektir. Top algılama çıktısı bir güven olasılığı olduğundan, "algılanan top" için eşiği ayarlamak ve aşağıdaki şekilde özetlendiği gibi bunun sonuçları nasıl değiştirdiğini gözlemlemek de mümkündür. Bu yöntemde bir ödünleşim vardır, çünkü daha yüksek bir eşik zorunlu olarak daha az yanlış alarma neden olacak, ancak aynı zamanda daha az kesin olan top örneklerinden bazılarını da kaçıracaktır. %20 ve %50 güven eşiklerini test ettik ve top algılamanın sırasıyla %78 ve %61 olduğunu gördük. Bu ölçüme göre %20 eşiği daha iyidir. %20 güven eşiği için toplam tespitlerin %80'inin aslında top (%20 yanlış pozitif) olması, %50 güven eşiği için ise %90'ının top (%10 yanlış pozitif) olması nedeniyle bu denge açıkça görülmektedir. Daha az hatalı pozitif sonuç için %50 güven eşiği daha iyidir. Bu önlemlerin her ikisi de daha büyük bir eğitim seti için daha fazla etiketli veriyle geliştirilebilir.

Tespit hattının verimi saniyede 10 kare düzeyinde olduğundan mevcut haliyle tek bir örnek, girişte saniyede 50 kare hızında sürekli olarak çalıştırılacak kadar hızlı değildir. Top adımlarından sonra çıktı için 7 saniyelik işarete ulaşmak, gecikme için daha fazla optimizasyon gerektirecektir; bu, belki de ardışık düzenin birden fazla versiyonunu paralel olarak çalıştırarak ve CNN modellerini niceleme yoluyla sıkıştırarak (örneğin).

Top yolu izleme doğruluğu

MMTracking'in önceden eğitilmiş CNN modeli iyi çalışıyor ancak ilginç başarısızlık durumları da var. Aşağıdaki şekil, izleyicinin topla başladığı, sınırlayıcı kutusunu hem atıcının kafasını hem de topu içerecek şekilde genişlettiği ve daha sonra ne yazık ki atıcının kafasını takip ettiği ve topu unuttuğu bir durumu göstermektedir. Bu durumda golf sopası kafası beyaz görünür (muhtemelen aynasal yansıma nedeniyle), dolayısıyla kafa karışıklığı anlaşılabilir; İzleme CNN'inin izlenmesi ve ince ayarının yapılması için etiketlenmiş veriler, gelecekte bunun iyileştirilmesine yardımcı olabilir.

Sonuç

Bu yazıda, oyuncuları bir kameranın görüş alanı içinde konumlandıran, hangi oyuncunun atacağını belirleyen ve kupaya doğru hareket eden topu takip eden modüler bir boru hattının geliştirilmesini tartıştık.

AWS'nin PGA TOUR ile işbirliği hakkında daha fazla bilgi için bkz. PGA TOUR, hayran deneyimini yeniden tasarlamak için AWS ile iş birliği yapıyor.


Yazarlar Hakkında

James Altın Amazon Bedrock'ta makine öğrenimi ve sinir bilimi alanında geçmişi olan uygulamalı bir bilim insanıdır.

Henry Wang Amazon Generative AI Innovation Center'da uygulamalı bir bilim insanıdır ve burada AWS müşterileri için üretken yapay zeka çözümleri araştırıp oluşturur. Spor, medya ve eğlence sektörlerine odaklanmaktadır ve geçmişte çeşitli spor ligleri, takımları ve yayıncılarıyla çalışmıştır. Boş zamanlarında tenis ve golf oynamayı seviyor.

Tryambak Gangopadhyay AWS Üretken Yapay Zeka İnovasyon Merkezi'nde Uygulamalı Bilim Adamıdır ve burada çok çeşitli sektörlerdeki kuruluşlarla iş birliği yapmaktadır. Görevi, önemli iş zorluklarını ele almak ve yapay zekanın benimsenmesini hızlandırmak için araştırma yapmak ve Üretken Yapay Zeka çözümleri geliştirmektir.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi