PGA TOUR によるクラウドでのボール位置追跡 |アマゾン ウェブ サービス

PGA TOUR によるクラウドでのボール位置追跡 |アマゾン ウェブ サービス

ソースノード: 3057379

PGA ツアーは、ファンをゲームに近づけるリアルタイム データによってゴルフ体験を強化し続けています。より豊かな体験を提供するため、グリーン上のボールの位置を自動で追跡する次世代ボール位置追跡システムの開発を進めている。

TOUR は現在、CDW を利用した ShotLink を使用しています。これは、オンサイトのコンピューティングを備えた複雑なカメラ システムを使用する最高のスコアリング システムであり、すべてのショットの開始位置と終了位置を厳密に追跡します。ツアーは、コンピューター ビジョンと機械学習 (ML) 技術を調査して、パッティング グリーン上のゴルフ ボールの位置を特定する次世代のクラウドベースのパイプラインを開発したいと考えていました。

Amazon Generative AI Innovation Center (GAIIC) は、最近の PGA TOUR イベントのサンプル データセットでこれらの手法の有効性を実証しました。 GAIIC は、一連のディープ畳み込みニューラル ネットワークをカスケード接続するモジュール式パイプラインを設計しました。これにより、カメラの視野内でプレーヤーの位置を特定し、どのプレーヤーがパットしているかを判断し、カップに向かって移動するボールを追跡することができます。

この投稿では、このパイプラインの開発、生データ、パイプラインを構成する畳み込みニューラル ネットワークの設計、およびそのパフォーマンスの評価について説明します。

且つ

このツアーでは、3 つのホールのグリーンの周囲に配置された 4 台の 3K カメラから、最近のトーナメントの 3 日間の連続ビデオが提供されました。次の図は、プレーヤーのパッティングを見やすくするために、4 台のカメラからのフレームを切り取ってズームしたものを示しています。カメラの解像度が高いにもかかわらず、グリーンからの距離があるため、ボールは小さく見え (通常は 4×5、5×XNUMX、または XNUMX×XNUMX ピクセル)、このサイズのターゲットを正確に位置特定するのは難しい場合があることに注意してください。

カメラのフィードに加えて、ツアーは GAIIC に、静止位置の世界的な位置やタイムスタンプを含む、各ショットの注釈付きスコア データを提供しました。これにより、グリーン上のすべてのパットを視覚化できるだけでなく、プレーヤーのパッティングのすべてのビデオ クリップを取得する機能も可能になり、手動でラベルを付け、パイプラインを構成する検出モデルをトレーニングするために使用できます。次の図は、左上から反時計回りに、おおよそのパット パスのオーバーレイを含む 1 つのカメラ ビューを示しています。ピンは毎日移動します。2 日目は青、3 日目は赤、XNUMX 日目はオレンジに対応します。

パイプラインの概要

システム全体は、トレーニング パイプラインと推論パイプラインの両方で構成されます。次の図は、トレーニング パイプラインのアーキテクチャを示しています。開始点は、次のようなストリーミング モジュールからのビデオ データの取り込みです。 アマゾンキネシス ライブビデオまたは直接配置用 Amazon シンプル ストレージ サービス (Amazon S3) 歴史的なビデオ。トレーニング パイプラインでは、ビデオの前処理と画像の手作業によるラベル付けが必要です。 Amazon SageMakerグラウンドトゥルース。モデルは次の方法でトレーニングできます アマゾンセージメーカー およびそのアーティファクトは Amazon S3 に保存されます。

次の図に示す推論パイプラインは、生のビデオから情報を連続的に抽出し、最終的に静止しているボールの世界座標を予測する多数のモジュールで構成されています。最初に、モデルがプレーヤーとボールを検索する必要があるピクセル領域を削減するために、各カメラのより広い視野からグリーンがトリミングされます。次に、ディープ畳み込みニューラル ネットワーク (CNN) を使用して、視野内の人々の位置を見つけます。別の CNN を使用して、見つかった人のタイプを予測し、誰かがパットしようとしているかどうかを判断します。視野内で可能性の高いパターの位置が特定された後、同じネットワークを使用してパター付近のボールの位置が予測されます。 3 番目の CNN はボールの動作中にボールを追跡し、最後にカメラのピクセル位置から GPS 座標への変換関数が適用されます。

プレイヤーの検出

設定された間隔で 4K フレーム全体にわたってボール検出用の CNN を実行することは可能ですが、これらのカメラ距離でのボールの角サイズを考慮すると、小さな白い物体が検出をトリガーし、多くの誤報が発生します。画像フレーム全体でボールを検索することを避けるために、プレーヤーのポーズとボールの位置の相関関係を利用することができます。パッティングしようとしているボールはプレーヤーの隣にある必要があるため、視野内でプレーヤーを見つけると、検出器がボールを検索する必要があるピクセル領域が大幅に制限されます。

次の図に示すように、事前トレーニングされた CNN を使用して、シーン内のすべての人物の周囲の境界ボックスを予測することができました。残念ながら、グリーン上には複数のボールが存在することが多いため、単に全員を見つけてボールを探すだけではなく、さらなるロジックが必要になります。これには、現在パッティングしているプレーヤーを見つけるために別の CNN が必要です。

プレーヤーの分類とボールの検出

ボールが存在する可能性のある場所をさらに絞り込むために、事前にトレーニングされた物体検出 CNN (YOLO v7) を微調整して、グリーン上のすべての人々を分類しました。このプロセスの重要なコンポーネントは、SageMaker Ground Truth を使用して一連の画像に手動でラベルを付けることでした。このラベルにより、CNN はプレーヤーのパッティングを高精度で分類できるようになりました。ラベル付けプロセスでは、プレーヤーのパッティングとともにボールの輪郭も描かれたため、この CNN はボール検出も実行でき、パットの前にボールの周囲に初期境界ボックスを描画し、位置情報を下流のボール追跡 CNN に供給しました。 。

4 つの異なるラベルを使用して、画像内のオブジェクトに注釈を付けます。

  • 選手のパッティング – クラブを持ち、パッティングポジションにあるプレーヤー
  • プレーヤーがパッティングしない – プレーヤーがパッティングポジションにいない(クラブを持っている場合もあります)
  • 他人 – プレイヤーではないその他の者
  • ゴルフボール – ゴルフボール

次の図は、視野内の各人物を分類するために SageMaker Ground Truth のラベルを使用して CNN が微調整されたことを示しています。プレーヤー、キャディー、ファンの見た目は多岐にわたるため、これは困難です。プレーヤーがパッティングとして分類された後、ボール検出用に微調整された CNN がそのプレーヤーのすぐ周囲の小さなエリアに適用されました。

ボール軌道追跡

3 番目の CNN は、モーション追跡用に事前トレーニングされた ResNet アーキテクチャであり、パッティング後のボールの追跡に使用されました。モーション トラッキングは徹底的に研究された問題であるため、このネットワークは、さらに微調整しなくてもパイプラインに統合された場合に良好なパフォーマンスを発揮しました。

パイプライン出力

CNN のカスケードは、人の周囲に境界ボックスを配置し、グリーン上の人を分類し、ボールの初期位置を検出し、ボールが動き始めたら追跡します。次の図は、パイプラインのラベル付きビデオ出力を示しています。ボールが移動するときのボールのピクセル位置が追跡され、記録されます。グリーン上の人々は追跡され、境界ボックスで輪郭が描かれていることに注意してください。下部のパターには「プレーヤー パッティング」として正しくラベルが付けられており、移動するボールは追跡され、小さな青い境界ボックスで囲まれています。

性能

パイプラインのコンポーネントのパフォーマンスを評価するには、ラベル付きデータが必要です。ボールのグラウンド トゥルースのワールド位置は提供されましたが、ボールの最終的なピクセル位置やプレーヤーのパッティングのピクセル位置など、グラウンド トゥルースの中間点はありませんでした。私たちが実行したラベル付けジョブにより、パフォーマンスの測定を可能にするパイプラインの中間出力のグラウンド トゥルース データを開発しました。

プレーヤーの分類とボール検出の精度

プレーヤーのパッティングと最初のボールの位置を検出するために、データセットにラベルを付け、前述のように YOLO v7 CNN モデルを微調整しました。次の図に示すように、モデルは、前の人物検出モジュールからの出力を XNUMX つのクラス (パッティングしているプレーヤー、パッティングしていないプレーヤー、その他の人々、およびゴルフ ボール) に分類しました。

このモジュールのパフォーマンスは、次の図に示す混同行列を使用して評価されます。対角線のボックス内の値は、予測されたクラスがグラウンド トゥルース ラベルからの実際のクラスと一致する頻度を示します。このモデルの再現率は、人物クラスごとに 89% 以上で、ゴルフ ボールの再現率は 79% です (モデルは人物の例では事前トレーニングされているが、ゴルフ ボールの例では事前トレーニングされていないため、これは予想される結果です。これは次の方法で改善できます)トレーニング セットにはさらにラベルの付いたゴルフ ボールが含まれます)。

次のステップは、ボール トラッカーをトリガーすることです。ボール検出の出力は信頼確率であるため、「検出されたボール」のしきい値を設定し、それによって結果がどのように変化するかを観察することもできます。これを次の図にまとめます。この方法にはトレードオフがあります。これは、しきい値を高くすると誤警報が必然的に少なくなりますが、確実性の低いボールの例をいくつか見逃すことにもなるからです。信頼度 20% と 50% のしきい値をテストしたところ、それぞれ 78% と 61% でボールが検出されたことがわかりました。この基準からすると、20% のしきい値の方が優れています。トレードオフは、20% の信頼しきい値では、検出総数の 80% が実際にボール (20% の偽陽性) であったのに対し、50% の信頼しきい値では 90% がボール (10% の偽陽性) であったことから明らかです。誤検知を少なくするには、50% の信頼しきい値の方が優れています。これらの尺度はどちらも、大規模なトレーニング セットのラベル付きデータを増やすことで改善できる可能性があります。

検出パイプラインのスループットは 10 秒あたり 50 フレーム程度であるため、現在の形式では、単一インスタンスは入力に対して 7 秒あたり XNUMX フレームで継続的に実行できるほど高速ではありません。ボール ステップ後の出力で XNUMX 秒のマークを達成するには、おそらく複数のバージョンのパイプラインを並行して実行し、量子化によって CNN モデルを圧縮することによって、レイテンシをさらに最適化する必要があります。

ボール軌道追跡精度

MMTracking の事前トレーニング済み CNN モデルはうまく機能しますが、興味深い失敗例もあります。次の図は、トラッカーがボールから開始し、バウンディング ボックスを拡大してパター ヘッドとボールの両方を含めた後、残念ながらパター ヘッドを追跡してボールを忘れた場合を示しています。この場合、パター ヘッドは白く見えるので (おそらく鏡面反射により)、混乱は理解できます。追跡用のラベル付きデータと追跡 CNN の微調整は、将来これを改善するのに役立つ可能性があります。

まとめ

この投稿では、カメラの視野内でプレーヤーの位置を特定し、どのプレーヤーがパッティングしているかを判断し、カップに向かって移動するボールを追跡するモジュール式パイプラインの開発について説明しました。

AWS と PGA TOUR のコラボレーションの詳細については、以下を参照してください。 PGA ツアーが AWS と提携してファン体験を再考.


著者について

ジェームズ・ゴールデン Amazon Bedrock の応用科学者であり、機械学習と神経科学のバックグラウンドを持っています。

ヘンリー・ワン Amazon Generative AI Innovation Center の応用科学者であり、AWS の顧客向けに生成 AI ソリューションを研究および構築しています。彼はスポーツ、メディア、エンターテインメント業界に焦点を当てており、これまでにさまざまなスポーツ リーグ、チーム、放送局と協力してきました。余暇には、テニスやゴルフをするのが好きです。

トヤンバク・ガンゴパディヤイ 彼は AWS Generative AI Innovation Center の応用科学者であり、さまざまな業界の組織と協力しています。彼の役割には、重要なビジネス課題に対処し、AI 導入を加速するための研究と生成 AI ソリューションの開発が含まれます。

タイムスタンプ:

より多くの AWS機械学習