কৌশলে AI বিটস হিউম্যানস - দীপন্যাশের সাথে দেখা করুন

উত্স নোড: 1767483

কৃত্রিম বুদ্ধিমত্তার (এআই) জয় করার জন্য আরেকটি গেমটি অনেকদিন ধরেই খুব চ্যালেঞ্জিং বলে মনে করা হচ্ছে বটদের কাছে পড়েছে: স্ট্র্যাটেগো।

DeepNash, লন্ডন ভিত্তিক কোম্পানি দ্বারা তৈরি একটি AI DeepMind, এখন স্ট্র্যাটেগোতে বিশেষজ্ঞ মানুষের সাথে মেলে, একটি বোর্ড গেম যা অপূর্ণ তথ্যের বিরুদ্ধে দীর্ঘমেয়াদী কৌশলগত চিন্তার প্রয়োজন।

এই সর্বশেষ কীর্তিটি AIs-এর জন্য গেমগুলিতে আরও একটি বড় জয়ের পরিপ্রেক্ষিতে আসে যা আগে মানুষের শক্তি বলে মনে করা হয়েছিল।

মাত্র গত সপ্তাহে, মেটার সিসেরো, একটি এআই যে মানুষের খেলোয়াড়দের ছাড়িয়ে যেতে পারে কূটনীতির খেলায়, অনলাইনে প্রতিপক্ষকে ছাড়িয়ে যাওয়ার ইতিহাস তৈরি করেছে৷

"সাম্প্রতিক বছরগুলিতে AI দ্বারা গুণগতভাবে বিভিন্ন গেমের বৈশিষ্ট্যগুলিকে যে হারে জয় করা হয়েছে - বা নতুন স্তরে আয়ত্ত করা হয়েছে - তা বেশ লক্ষণীয়," অ্যান আর্বরের মিশিগান বিশ্ববিদ্যালয়ের মাইকেল ওয়েলম্যান বলেছেন, একজন কম্পিউটার বিজ্ঞানী যিনি কৌশলগত যুক্তি এবং গেম অধ্যয়ন করেন। তত্ত্ব

"কৌশল এবং কূটনীতি একে অপরের থেকে বেশ আলাদা, এবং চ্যালেঞ্জিং বৈশিষ্ট্যগুলিও রয়েছে যা গেমগুলির থেকে উল্লেখযোগ্যভাবে আলাদা যার জন্য সাদৃশ্যপূর্ণ মাইলফলক পৌঁছেছে," ওয়েলম্যান বলেছেন।

অসম্পূর্ণ তথ্য

গেমটিতে এমন বৈশিষ্ট্য রয়েছে যা সাধারণত দাবা, গো বা পোকারের চেয়ে অনেক বেশি জটিল। দাবা, গো এবং পোকার সবই এআই দ্বারা আয়ত্ত করা হয়েছে।

স্ট্র্যাটেগো খেলায়, দুইজন খেলোয়াড় একটি বোর্ডে 40টি করে টুকরো রাখেন, কিন্তু তাদের প্রতিপক্ষের টুকরোগুলো দেখতে হবে না।

গেমটির উদ্দেশ্য হল প্রতিপক্ষকে নির্মূল করতে এবং একটি পতাকা ক্যাপচার করার জন্য টুকরো টুকরো করা। 

স্ট্র্যাটেগোর গেম ট্রি - গেমটি যেভাবে যেতে পারে তার একটি গ্রাফ - Go এর 10535 এর বিপরীতে 10360টি স্টেট রয়েছে৷ 

যখন খেলার শুরুতে অসম্পূর্ণ তথ্যের কথা আসে, তখন স্ট্র্যাটেগোতে 1066 সম্ভাব্য ব্যক্তিগত অবস্থান রয়েছে, একটি চিত্র যা দুই-খেলোয়াড় টেক্সাস হোল্ড'ম পোকারে মাত্র 106টি এমন প্রারম্ভিক পরিস্থিতিকে বামন করে।

প্যারিসে অবস্থিত ডিপমাইন্ড গবেষক জুলিয়েন পেরোলাট বলেছেন, "স্ট্র্যাটেগোতে সম্ভাব্য ফলাফলের সংখ্যার নিছক জটিলতার অর্থ হল যে অ্যালগরিদমগুলি নিখুঁত-তথ্যযুক্ত গেমগুলিতে ভাল পারফর্ম করে, এবং এমনকি যেগুলি পোকারের জন্য কাজ করে, সেগুলিও কাজ করে না।"

ডিপনাশ পেরোলাট এবং তার সহকর্মীরা তৈরি করেছিলেন।

ন্যাশ অনুপ্রাণিত বট

বটটির নাম হল বিখ্যাত মার্কিন গণিতবিদ জন ন্যাশের প্রতি শ্রদ্ধা, যিনি ন্যাশ ভারসাম্য তত্ত্ব নিয়ে এসেছিলেন যা মনে করে যে "কৌশলের একটি স্থিতিশীল সেট" আছে যা খেলোয়াড়দের এমনভাবে অনুসরণ করা যেতে পারে যে কৌশল পরিবর্তন করে কোনো খেলোয়াড় উপকৃত হয় না। তাদের নিজেদের. যেমন, গেমগুলিতে শূন্য, এক বা একাধিক ন্যাশ ভারসাম্য থাকে।

DeepNash একটি ন্যাশ ভারসাম্য খুঁজে পেতে শক্তিবৃদ্ধি-শিক্ষার অ্যালগরিদম এবং একটি গভীর নিউরাল নেটওয়ার্ককে একত্রিত করে। 

সাধারনত, রিইনফোর্সমেন্ট লার্নিং হল যেখানে একজন বুদ্ধিমান এজেন্ট (কম্পিউটার প্রোগ্রাম) পরিবেশের সাথে মিথস্ক্রিয়া করে এবং গেমের প্রতিটি স্টেটের জন্য ক্রিয়া নির্দেশ করার জন্য সর্বোত্তম নীতি শিখে। 

একটি সর্বোত্তম নীতির জন্য, DeepNash নিজের বিরুদ্ধে মোট 5.5 বিলিয়ন গেম খেলেছে। 

সংক্ষেপে, যদি এক পক্ষ শাস্তি পায়, অন্য পক্ষকে পুরস্কৃত করা হয়, এবং নিউরাল নেটওয়ার্কের ভেরিয়েবলগুলি - যা নীতির প্রতিনিধিত্ব করে - সেই অনুযায়ী টুইক করা হয়৷

এআই কৌশলে মানুষকে হারায় – ডিপম্যাশের সাথে দেখা করুন

এআই কৌশলে মানুষকে হারায় – ডিপম্যাশের সাথে দেখা করুন

কিছু পর্যায়ে, DeepNash একটি আনুমানিক ন্যাশ সাম্যাবস্থায় একত্রিত হয়। অন্যান্য বট থেকে ভিন্ন, DeepNash নিজেকে s ছাড়াই অপ্টিমাইজ করেখেলা গাছের মধ্য দিয়ে কান দেওয়া

দুই সপ্তাহের জন্য, ডিপনাশ অনলাইন গেম প্ল্যাটফর্ম, গ্র্যাভনে মানব স্ট্র্যাটেগো প্লেয়ারদের বিরুদ্ধে খেলেছে।

50টি ম্যাচে প্রতিদ্বন্দ্বিতা করার পর, Ai 2002 সাল থেকে সমস্ত গ্র্যাভন স্ট্র্যাটেগো খেলোয়াড়দের মধ্যে তৃতীয় স্থানে ছিল। 

"আমাদের কাজ দেখায় যে স্ট্র্যাটেগোর মতো একটি জটিল গেম, অসম্পূর্ণ তথ্য জড়িত, এটি সমাধান করার জন্য অনুসন্ধান কৌশলগুলির প্রয়োজন হয় না," বলেছেন দলের সদস্য কার্ল টুয়েলস, প্যারিসে অবস্থিত ডিপমাইন্ড গবেষক৷ "এটি AI-তে একটি সত্যিই বড় পদক্ষেপ।"

অন্যান্য গবেষকরাও এই কৃতিত্ব দ্বারা মুগ্ধ।

চিত্তাকর্ষক ফলাফল

"ফলগুলি চিত্তাকর্ষক," নোম ব্রাউন সম্মত হন, মেটা এআই-এর একজন গবেষক, নিউ ইয়র্ক সিটিতে সদর দফতর এবং দলের একজন সদস্য যে 2019 সালে পোকার-বাজানো AI Pluribus4 রিপোর্ট করেছিল৷

মেটাতে, Facebook-এর মূল সংস্থা, ব্রাউন এবং তার সহকর্মীরা একটি AI তৈরি করেছে যা কূটনীতি খেলতে পারে, এমন একটি খেলা যেখানে সাতজন খেলোয়াড় একটি মানচিত্রের চারপাশে টুকরো টুকরো করে ইউরোপের ভৌগলিক নিয়ন্ত্রণের জন্য প্রতিযোগিতা করে।

কূটনীতিতে, লক্ষ্য হল ইউনিটগুলি (বহর এবং সেনাবাহিনী) সরানোর মাধ্যমে সরবরাহ কেন্দ্রগুলির নিয়ন্ত্রণ নেওয়া। 

মেটা বলে যে সিসেরো বেশ তাৎপর্যপূর্ণ কারণ এআই অ-প্রতিকূল পরিবেশের উপর নির্ভর করে।

অতীতের বিপরীতে যেখানে মাল্টি-এজেন্ট এআই-এর পূর্বে বড় সাফল্যগুলি সম্পূর্ণরূপে প্রতিকূল পরিবেশে হয়েছে, যেমন দাবা, গো এবং পোকার, যেখানে যোগাযোগের কোন মূল্য নেই, সিসেরো একটি কৌশলগত যুক্তি ইঞ্জিন এবং নিয়ন্ত্রণযোগ্য সংলাপ মডিউল নিয়োগ করে।

"যখন আপনি দুই-খেলোয়াড়ের শূন্য-সমষ্টি গেমের বাইরে যান, তখন ন্যাশ ভারসাম্যের ধারণাটি মানুষের সাথে ভাল খেলার জন্য আর উপযোগী হয় না," ব্রাউন বলেছেন।

ব্রাউন এবং তার দল মানব খেলোয়াড়দের জড়িত কূটনীতির একটি অনলাইন সংস্করণের 125,261টি গেমের ডেটা ব্যবহার করে সিসেরোকে প্রশিক্ষণ দিয়েছে। 

সেলফ-প্লে ডেটা এবং স্ট্র্যাটেজিক রিজনিং মডিউল (এসআরএম) ব্যবহার করে, সিসেরো গেমের অবস্থা এবং জমে থাকা বার্তা, অন্যান্য খেলোয়াড়দের সম্ভাব্য চাল এবং নীতির দ্বারা বিচার-বিবেচনা করতে শিখেছে। 

এআই কৌশলে মানুষকে হারায় – ডিপম্যাশের সাথে দেখা করুন

এআই কৌশলে মানুষকে হারায় – ডিপম্যাশের সাথে দেখা করুন

মেটা বলে যে এটি webDiplomacy.net এ অনলাইনে খেলা কূটনীতির 125,261টি গেম থেকে ডেটা সংগ্রহ করেছে। এই গেমগুলির মধ্যে, মোট 40,408টি গেমে সংলাপ রয়েছে, যেখানে খেলোয়াড়দের মধ্যে মোট 12,901,662টি বার্তা আদান-প্রদান করা হয়েছে।

বাস্তব বিশ্বের আচরণ

ব্রাউন বিশ্বাস করেন যে সিসেরোর মতো গেম-প্লেয়িং বট মানুষের সাথে যোগাযোগ করতে পারে এবং "অনুপস্থিত বা এমনকি অযৌক্তিক মানুষের ক্রিয়াকলাপ বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির জন্য পথ প্রশস্ত করতে পারে।"

"আপনি যদি একটি স্ব-ড্রাইভিং গাড়ি তৈরি করেন, তাহলে আপনি অনুমান করতে চান না যে রাস্তায় অন্য সব চালক পুরোপুরি যুক্তিবাদী, এবং সর্বোত্তম আচরণ করতে যাচ্ছেন," তিনি বলেছেন।

সিসেরো, তিনি যোগ করেছেন, এই দিকে একটি বড় পদক্ষেপ। "আমাদের এখনও খেলার জগতে এক পা আছে, কিন্তু এখন বাস্তব জগতেও আমাদের এক পা আছে।"

ওয়েলম্যানের মতো অন্যরা একমত, কিন্তু জোর দেন যে আরও কাজ করা দরকার। "এই কৌশলগুলির অনেকগুলি প্রকৃতপক্ষে বিনোদনমূলক গেমগুলির বাইরেও প্রাসঙ্গিক" বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির জন্য, তিনি বলেছেন। "তবুও, কিছু সময়ে, নেতৃস্থানীয় AI গবেষণা ল্যাবগুলিকে বিনোদনমূলক সেটিংসের বাইরে যেতে হবে এবং আমরা আসলে যে স্কুইশিয়ার রিয়েল-ওয়ার্ল্ড 'গেম'গুলির বিষয়ে বৈজ্ঞানিক অগ্রগতি পরিমাপ করব তা খুঁজে বের করতে হবে।"

/মেটানিউজ.

সময় স্ট্যাম্প:

থেকে আরো মেটানিউজ