পিজিএ ট্যুরের সাথে ক্লাউডে বল পজিশন ট্র্যাকিং | আমাজন ওয়েব সার্ভিসেস

পিজিএ ট্যুরের সাথে ক্লাউডে বল পজিশন ট্র্যাকিং | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 3057379

পিজিএ ট্যুর রিয়েল-টাইম ডেটা সহ গল্ফ অভিজ্ঞতা বাড়াতে থাকে যা ভক্তদের গেমের আরও কাছাকাছি নিয়ে আসে। এমনকি আরও সমৃদ্ধ অভিজ্ঞতা প্রদানের জন্য, তারা একটি পরবর্তী প্রজন্মের বল পজিশন ট্র্যাকিং সিস্টেমের বিকাশের চেষ্টা করছে যা স্বয়ংক্রিয়ভাবে সবুজে বলের অবস্থান ট্র্যাক করে।

ট্যুরটি বর্তমানে CDW দ্বারা চালিত শটলিঙ্ক ব্যবহার করে, একটি প্রিমিয়ার স্কোরিং সিস্টেম যা প্রতিটি শটের শুরু এবং শেষ অবস্থানকে ঘনিষ্ঠভাবে ট্র্যাক করতে সাইটে কম্পিউট সহ একটি জটিল ক্যামেরা সিস্টেম ব্যবহার করে। ট্যুর কম্পিউটার ভিশন এবং মেশিন লার্নিং (ML) কৌশলগুলি অন্বেষণ করতে চেয়েছিল যাতে একটি পরবর্তী প্রজন্মের ক্লাউড-ভিত্তিক পাইপলাইন তৈরি করা যায় যাতে সবুজ রঙে গল্ফ বলগুলি সনাক্ত করা যায়৷

আমাজন জেনারেটিভ এআই ইনোভেশন সেন্টার (GAIIC) সাম্প্রতিক পিজিএ ট্যুর ইভেন্ট থেকে একটি উদাহরণ ডেটাসেটে এই কৌশলগুলির কার্যকারিতা প্রদর্শন করেছে। GAIIC একটি মডুলার পাইপলাইন ডিজাইন করেছে যা গভীর কনভোলিউশনাল নিউরাল নেটওয়ার্কের একটি সিরিজ ক্যাসকেড করে যা সফলভাবে খেলোয়াড়দের একটি ক্যামেরার ক্ষেত্রের ভিউয়ের মধ্যে স্থানীয়করণ করে, কোন খেলোয়াড় রাখছে তা নির্ধারণ করে এবং কাপের দিকে যাওয়ার সাথে সাথে বলটিকে ট্র্যাক করে।

এই পোস্টে, আমরা এই পাইপলাইনের উন্নয়ন, কাঁচা ডেটা, পাইপলাইন সমন্বিত কনভোল্যুশনাল নিউরাল নেটওয়ার্কের ডিজাইন এবং এর কার্যকারিতার একটি মূল্যায়ন বর্ণনা করি।

উপাত্ত

ট্যুরটি একটি ছিদ্রে সবুজের চারপাশে অবস্থিত তিনটি 3K ক্যামেরা থেকে সাম্প্রতিক একটি টুর্নামেন্ট থেকে 4 দিনের একটানা ভিডিও সরবরাহ করেছে। নিচের চিত্রটি একটি ক্যামেরা থেকে ক্রপ করা এবং জুম করা একটি ফ্রেম দেখায় যাতে প্লেয়ার স্থাপন করা সহজে দৃশ্যমান হয়। নোট করুন যে ক্যামেরাগুলির উচ্চ রেজোলিউশন সত্ত্বেও, সবুজ থেকে দূরত্বের কারণে, বলটি ছোট দেখায় (সাধারণত 3×3, 4×4 বা 5×5 পিক্সেল), এবং এই আকারের লক্ষ্যগুলি সঠিকভাবে স্থানীয়করণ করা কঠিন হতে পারে।

ক্যামেরা ফিডগুলি ছাড়াও, ট্যুর GAIIC-কে প্রতিটি শটে টীকাযুক্ত স্কোরিং ডেটা প্রদান করে, যার বিশ্রামের অবস্থানের বিশ্ব অবস্থান এবং টাইমস্ট্যাম্প সহ। এটি সবুজ রঙের প্রতিটি পুটের ভিজ্যুয়ালাইজেশনের জন্য অনুমতি দেয়, পাশাপাশি প্লেয়ার রাখার সমস্ত ভিডিও ক্লিপগুলিকে টেনে নেওয়ার ক্ষমতা, যা ম্যানুয়ালি লেবেল করা যেতে পারে এবং পাইপলাইন তৈরিকারী সনাক্তকরণ মডেলগুলিকে প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে। নিচের চিত্রটি উপরের বাম দিক থেকে ঘড়ির কাঁটার বিপরীতে আনুমানিক পুট পাথ ওভারলে সহ তিনটি ক্যামেরা ভিউ দেখায়। পিনটি প্রতিদিন সরানো হয়, যেখানে দিন 1 নীল, দিন 2 লাল, এবং দিন 3 কমলা।

পাইপলাইন ওভারভিউ

সামগ্রিক সিস্টেমে একটি প্রশিক্ষণ পাইপলাইন এবং অনুমান পাইপলাইন উভয়ই থাকে। নিম্নলিখিত চিত্রটি প্রশিক্ষণ পাইপলাইনের স্থাপত্যকে চিত্রিত করে। স্টার্টিং পয়েন্ট হল ভিডিও ডেটার ইনজেশন, হয় একটি স্ট্রিমিং মডিউল থেকে আমাজন কিনেসিস সরাসরি ভিডিও বা বসানোর জন্য আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) ঐতিহাসিক ভিডিওর জন্য। প্রশিক্ষণ পাইপলাইনের জন্য ভিডিও প্রিপ্রসেসিং এবং ছবিগুলির হ্যান্ড লেবেলিং প্রয়োজন আমাজন সেজমেকার গ্রাউন্ড ট্রুথ. মডেলদের সাথে প্রশিক্ষণ দেওয়া যেতে পারে আমাজন সেজমেকার এবং তাদের শিল্পকর্ম Amazon S3 এর সাথে সংরক্ষিত।

অনুমান পাইপলাইন, নিম্নলিখিত চিত্রে দেখানো হয়েছে, অনেকগুলি মডিউল নিয়ে গঠিত যা ক্রমাগতভাবে কাঁচা ভিডিও থেকে তথ্য বের করে এবং শেষ পর্যন্ত বিশ্রামে বলের বিশ্ব স্থানাঙ্কের পূর্বাভাস দেয়। প্রাথমিকভাবে, প্রতিটি ক্যামেরা থেকে বৃহত্তর দৃশ্যের ক্ষেত্র থেকে সবুজ কাটা হয়, যাতে পিক্সেল এলাকাটি কাটতে পারে যেখানে মডেলদের অবশ্যই খেলোয়াড় এবং বল অনুসন্ধান করতে হবে। এরপরে, একটি গভীর কনভোলিউশনাল নিউরাল নেটওয়ার্ক (সিএনএন) দৃশ্যের ক্ষেত্রের লোকেশন খুঁজে বের করতে ব্যবহৃত হয়। অন্য সিএনএন ব্যবহার করা হয় ভবিষ্যদ্বাণী করার জন্য যে কেউ পুট করতে চলেছেন কিনা তা নির্ধারণ করার জন্য কোন ধরনের ব্যক্তি পাওয়া গেছে। একটি সম্ভাব্য পাটারকে দৃশ্যের ক্ষেত্রে স্থানীয়করণ করার পরে, একই নেটওয়ার্কটি পুটারের কাছাকাছি বলের অবস্থানের পূর্বাভাস দিতে ব্যবহৃত হয়। একটি তৃতীয় সিএনএন তার গতির সময় বলটিকে ট্র্যাক করে এবং সবশেষে, ক্যামেরা পিক্সেল অবস্থান থেকে জিপিএস স্থানাঙ্কে একটি রূপান্তর ফাংশন প্রয়োগ করা হয়।

প্লেয়ার সনাক্তকরণ

যদিও একটি সেট ব্যবধানে পুরো 4K ফ্রেমে বল সনাক্তকরণের জন্য একটি CNN চালানো সম্ভব হবে, এই ক্যামেরা দূরত্বে বলের কৌণিক আকার দেওয়া হলে, যেকোনো ছোট সাদা বস্তু একটি সনাক্তকরণ শুরু করে, ফলে অনেকগুলি মিথ্যা অ্যালার্ম তৈরি হয়। বলের জন্য সম্পূর্ণ ইমেজ ফ্রেম অনুসন্ধান এড়াতে, প্লেয়ার পোজ এবং বলের অবস্থানের মধ্যে পারস্পরিক সম্পর্কের সুবিধা নেওয়া সম্ভব। একটি বল যেটি লাগাতে চলেছে সেটি অবশ্যই একজন খেলোয়াড়ের পাশে থাকতে হবে, তাই দৃশ্যের ক্ষেত্রে খেলোয়াড়দের খুঁজে বের করা পিক্সেল এলাকাটিকে ব্যাপকভাবে সীমাবদ্ধ করবে যেখানে ডিটেক্টরকে বলটি অনুসন্ধান করতে হবে।

আমরা একটি সিএনএন ব্যবহার করতে সক্ষম হয়েছি যা একটি দৃশ্যে সমস্ত লোকের চারপাশে বাউন্ডিং বাক্সের পূর্বাভাস দেওয়ার জন্য পূর্ব-প্রশিক্ষিত ছিল, যেমনটি নিম্নলিখিত চিত্রে দেখানো হয়েছে। দুর্ভাগ্যবশত, সবুজে প্রায়শই একের বেশি বল থাকে, তাই সমস্ত লোককে খুঁজে বের করা এবং একটি বলের সন্ধানের বাইরে আরও যুক্তির প্রয়োজন। বর্তমানে যে প্লেয়ারটি রাখছে তাকে খুঁজে পেতে এটির জন্য অন্য CNN প্রয়োজন।

প্লেয়ার শ্রেণীবিভাগ এবং বল সনাক্তকরণ

বলটি কোথায় হতে পারে তা আরও সংকুচিত করার জন্য, আমরা সবুজ রঙের সমস্ত লোককে শ্রেণিবদ্ধ করার জন্য একটি প্রাক-প্রশিক্ষিত অবজেক্ট-ডিটেকশন CNN (YOLO v7) তৈরি করেছি। এই প্রক্রিয়ার একটি গুরুত্বপূর্ণ উপাদান হল সেজমেকার গ্রাউন্ড ট্রুথ ব্যবহার করে ম্যানুয়ালি ছবিগুলির একটি সেট লেবেল করা। লেবেলগুলি সিএনএনকে উচ্চ নির্ভুলতার সাথে প্লেয়ারকে শ্রেণীবদ্ধ করার অনুমতি দিয়েছে। লেবেলিং প্রক্রিয়ায়, প্লেয়ার পুটিংয়ের সাথে বলটিকেও রূপরেখা দেওয়া হয়েছিল, তাই এই সিএনএনও বল সনাক্তকরণ করতে সক্ষম হয়েছিল, একটি পুটের আগে বলের চারপাশে একটি প্রাথমিক বাউন্ডিং বক্স আঁকতে এবং ডাউনস্ট্রিম বল ট্র্যাকিং সিএনএন-এ অবস্থানের তথ্য প্রদান করে। .

আমরা চিত্রগুলিতে অবজেক্টগুলিকে টীকা করতে চারটি ভিন্ন লেবেল ব্যবহার করি:

  • প্লেয়ার-পুটিং - খেলোয়াড় একটি ক্লাব ধারণ করে এবং পুটিং পজিশনে
  • প্লেয়ার-নট-পুটিং - প্লেয়ার পুটিং পজিশনে নেই (একটি ক্লাবও ধারণ করতে পারে)
  • অন্য ব্যাক্তি - অন্য কোনো ব্যক্তি যিনি একজন খেলোয়াড় নন
  • গলফ এর বল - গলফ বল

নিচের চিত্রটি দেখায় যে একটি সিএনএনকে সেজমেকার গ্রাউন্ড ট্রুথের লেবেল ব্যবহার করে সূক্ষ্ম সুর করা হয়েছে যাতে প্রতিটি ব্যক্তির দৃষ্টিভঙ্গিতে শ্রেণীবদ্ধ করা যায়। খেলোয়াড়, ক্যাডি এবং ভক্তদের ভিজ্যুয়াল উপস্থিতির বিস্তৃত পরিসরের কারণে এটি কঠিন। একজন খেলোয়াড়কে পুটিং হিসেবে শ্রেণীবদ্ধ করার পর, সেই খেলোয়াড়ের চারপাশে অবিলম্বে ছোট এলাকায় বল শনাক্তকরণের জন্য একটি সিএনএন ফাইন-টিউন করা হয়েছিল।

বল পাথ ট্র্যাকিং

একটি তৃতীয় সিএনএন, একটি রেসনেট আর্কিটেকচার যা গতি ট্র্যাকিংয়ের জন্য প্রাক-প্রশিক্ষিত, বলটি লাগানোর পরে ট্র্যাক করার জন্য ব্যবহার করা হয়েছিল। মোশন ট্র্যাকিং একটি পুঙ্খানুপুঙ্খভাবে গবেষণা করা সমস্যা, তাই এই নেটওয়ার্কটি ভাল পারফর্ম করে যখন পাইপলাইনে আরও সূক্ষ্ম টিউনিং ছাড়াই একত্রিত হয়।

পাইপলাইন আউটপুট

CNN-এর ক্যাসকেড মানুষের চারপাশে বাউন্ডিং বাক্স স্থাপন করে, সবুজে লোকেদের শ্রেণীবদ্ধ করে, প্রাথমিক বলের অবস্থান সনাক্ত করে এবং বলটি চলতে শুরু করলে ট্র্যাক করে। নিম্নলিখিত চিত্রটি পাইপলাইনের লেবেলযুক্ত ভিডিও আউটপুট দেখায়। বলের পিক্সেল অবস্থান ট্র্যাক এবং রেকর্ড করা হয়। মনে রাখবেন যে সবুজ রঙের লোকেদের ট্র্যাক করা হচ্ছে এবং বাউন্ডিং বাক্স দ্বারা রূপরেখা করা হচ্ছে; নীচের পাটারটিকে "প্লেয়ার পুটিং" হিসাবে সঠিকভাবে লেবেল করা হয়েছে এবং চলন্ত বলটিকে একটি ছোট নীল বাউন্ডিং বাক্স দ্বারা ট্র্যাক করা এবং রূপরেখা করা হচ্ছে।

সম্পাদন

পাইপলাইনের উপাদানগুলির কর্মক্ষমতা মূল্যায়ন করতে, লেবেলযুক্ত ডেটা থাকা প্রয়োজন। যদিও আমাদের বলের গ্রাউন্ড ট্রুথ ওয়ার্ল্ড পজিশন দেওয়া হয়েছিল, আমাদের কাছে গ্রাউন্ড ট্রুথের জন্য মধ্যবর্তী পয়েন্ট ছিল না, যেমন বলের চূড়ান্ত পিক্সেল পজিশন বা প্লেয়ারের পিক্সেলের অবস্থান। আমরা যে লেবেলিং কাজটি করেছি তার সাথে, আমরা পাইপলাইনের এই মধ্যবর্তী আউটপুটগুলির জন্য গ্রাউন্ড ট্রুথ ডেটা তৈরি করেছি যা আমাদের কর্মক্ষমতা পরিমাপ করতে দেয়।

প্লেয়ার শ্রেণীবিভাগ এবং বল সনাক্তকরণ নির্ভুলতা

প্লেয়ার পুটিং এবং প্রাথমিক বলের অবস্থান সনাক্তকরণের জন্য, আমরা একটি ডেটাসেট লেবেল করেছি এবং পূর্বে বর্ণিত হিসাবে একটি YOLO v7 CNN মডেলকে ফাইন-টিউন করেছি। মডেলটি পূর্ববর্তী ব্যক্তি শনাক্তকরণ মডিউল থেকে আউটপুটকে চারটি শ্রেণীতে শ্রেণীবদ্ধ করেছে: একজন প্লেয়ার পুটিং, একজন প্লেয়ার রাখছে না, অন্যান্য লোক এবং গল্ফ বল, যেমনটি নিম্নলিখিত চিত্রে দেখানো হয়েছে।

এই মডিউলটির কর্মক্ষমতা একটি বিভ্রান্তি ম্যাট্রিক্সের সাথে মূল্যায়ন করা হয়, যা নিম্নলিখিত চিত্রে দেখানো হয়েছে। তির্যক বাক্সের মানগুলি দেখায় যে কত ঘন ঘন ভবিষ্যদ্বাণী করা ক্লাসটি গ্রাউন্ড ট্রুথ লেবেল থেকে প্রকৃত শ্রেণীর সাথে মিলেছে। মডেলটিতে প্রতিটি ব্যক্তি শ্রেণীর জন্য 89% প্রত্যাহার বা আরও ভাল, এবং গলফ বলের জন্য 79% প্রত্যাহার (যা প্রত্যাশিত কারণ মডেলটি লোকেদের সাথে উদাহরণের জন্য পূর্ব-প্রশিক্ষিত কিন্তু গল্ফ বলের উদাহরণগুলিতে নয়; এটির সাথে উন্নত করা যেতে পারে প্রশিক্ষণ সেটে আরও লেবেলযুক্ত গল্ফ বল)।

পরবর্তী ধাপ হল বল ট্র্যাকার ট্রিগার করা। যেহেতু বল সনাক্তকরণ আউটপুট একটি আত্মবিশ্বাসের সম্ভাবনা, তাই "শনাক্ত করা বল"-এর জন্য থ্রেশহোল্ড সেট করাও সম্ভব এবং নিম্নলিখিত চিত্রে সংক্ষিপ্তভাবে দেখানো ফলাফলগুলি কীভাবে পরিবর্তন করে তা পর্যবেক্ষণ করাও সম্ভব। এই পদ্ধতিতে একটি ট্রেড-অফ রয়েছে কারণ একটি উচ্চ থ্রেশহোল্ডে অগত্যা কম মিথ্যা অ্যালার্ম থাকবে তবে বলের কিছু কম নির্দিষ্ট উদাহরণও মিস হবে। আমরা 20% এবং 50% আত্মবিশ্বাসের থ্রেশহোল্ড পরীক্ষা করেছি এবং যথাক্রমে 78% এবং 61% বল সনাক্তকরণ পেয়েছি। এই পরিমাপ দ্বারা, 20% থ্রেশহোল্ড ভাল। 20% কনফিডেন্স থ্রেশহোল্ডের জন্য ট্রেড-অফ স্পষ্ট যে, মোট সনাক্তকরণের 80% আসলে বল ছিল (20% মিথ্যা পজিটিভ), যেখানে 50% কনফিডেন্স থ্রেশহোল্ডের জন্য, 90% বল ছিল (10% মিথ্যা ইতিবাচক)। কম মিথ্যা ইতিবাচক জন্য, 50% আত্মবিশ্বাস থ্রেশহোল্ড ভাল। একটি বৃহত্তর প্রশিক্ষণ সেটের জন্য আরও লেবেলযুক্ত ডেটা দিয়ে এই উভয় ব্যবস্থাই উন্নত করা যেতে পারে।

সনাক্তকরণ পাইপলাইন থ্রুপুট প্রতি সেকেন্ডে 10 ফ্রেমের ক্রম অনুসারে, তাই এর বর্তমান আকারে, একটি একক দৃষ্টান্ত প্রতি সেকেন্ডে 50 ফ্রেমে অবিচ্ছিন্নভাবে চালানোর জন্য যথেষ্ট দ্রুত নয়। বল ধাপের পরে আউটপুটের জন্য 7-সেকেন্ডের চিহ্ন অর্জনের জন্য লেটেন্সির জন্য আরও অপ্টিমাইজেশানের প্রয়োজন হবে, সম্ভবত পাইপলাইনের একাধিক সংস্করণ সমান্তরালভাবে চালিয়ে এবং সিএনএন মডেলগুলিকে কোয়ান্টাইজেশনের মাধ্যমে সংকুচিত করে (উদাহরণস্বরূপ)।

বল পাথ ট্র্যাকিং নির্ভুলতা

এমএমট্র্যাকিং থেকে প্রাক-প্রশিক্ষিত সিএনএন মডেলটি ভাল কাজ করে, তবে আকর্ষণীয় ব্যর্থতার ঘটনা রয়েছে। নীচের চিত্রটি এমন একটি কেস দেখায় যেখানে ট্র্যাকারটি বলের উপর শুরু করে, পাটার হেড এবং বল উভয়ই অন্তর্ভুক্ত করার জন্য তার বাউন্ডিং বক্সকে প্রসারিত করে এবং তারপর দুর্ভাগ্যবশত পাটার হেড ট্র্যাক করে এবং বলটি ভুলে যায়। এই ক্ষেত্রে, পাটার মাথা সাদা দেখায় (সম্ভবত স্পেকুলার প্রতিফলনের কারণে), তাই বিভ্রান্তি বোধগম্য; ট্র্যাকিং সিএনএন-এর ট্র্যাকিং এবং ফাইন-টিউনিংয়ের জন্য লেবেলযুক্ত ডেটা ভবিষ্যতে এটিকে উন্নত করতে সহায়তা করতে পারে।

উপসংহার

এই পোস্টে, আমরা একটি মডুলার পাইপলাইনের বিকাশ নিয়ে আলোচনা করেছি যা খেলোয়াড়দেরকে ক্যামেরার দৃশ্যের ক্ষেত্রে স্থানীয়করণ করে, কোন খেলোয়াড় রাখছে তা নির্ধারণ করে এবং কাপের দিকে যাওয়ার সাথে সাথে বলটিকে ট্র্যাক করে।

PGA ট্যুরের সাথে AWS সহযোগিতা সম্পর্কে আরও তথ্যের জন্য, পড়ুন PGA ট্যুর অনুরাগীদের অভিজ্ঞতা পুনরায় কল্পনা করতে AWS-এর সাথে টিজ আপ করে৷.


লেখক সম্পর্কে

জেমস গোল্ডেন মেশিন লার্নিং এবং নিউরোসায়েন্সের ব্যাকগ্রাউন্ড সহ অ্যামাজন বেডরকের একজন ফলিত বিজ্ঞানী।

হেনরি ওয়াং তিনি অ্যামাজন জেনারেটিভ এআই ইনোভেশন সেন্টারের একজন ফলিত বিজ্ঞানী, যেখানে তিনি AWS গ্রাহকদের জন্য জেনারেটিভ এআই সলিউশন নিয়ে গবেষণা করেন এবং তৈরি করেন। তিনি খেলাধুলা এবং মিডিয়া এবং বিনোদন শিল্পগুলিতে মনোনিবেশ করেন এবং অতীতে বিভিন্ন ক্রীড়া লীগ, দল এবং সম্প্রচারকারীদের সাথে কাজ করেছেন। তার অবসর সময়ে, তিনি টেনিস এবং গল্ফ খেলতে পছন্দ করেন।

ত্র্যম্বক গঙ্গোপাধ্যায় তিনি AWS জেনারেটিভ এআই ইনোভেশন সেন্টারের একজন ফলিত বিজ্ঞানী, যেখানে তিনি শিল্পের বিভিন্ন বর্ণালী জুড়ে সংস্থাগুলির সাথে সহযোগিতা করেন। গুরুত্বপূর্ণ ব্যবসায়িক চ্যালেঞ্জ মোকাবেলা করতে এবং এআই গ্রহণকে ত্বরান্বিত করতে গবেষণা পরিচালনা এবং জেনারেটিভ এআই সমাধান তৈরি করা তার ভূমিকা জড়িত।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং