ফেসবুকের মূল কোম্পানি মেটা প্ল্যাটফর্মস ইনকর্পোরেটেড বলেছে যে এটি একটি এআই তৈরি করেছে যা জনপ্রিয় কৌশল গেম, কূটনীতির একটি অনলাইন সংস্করণে মানুষকে ছাড়িয়ে যেতে পারে, যেখানে সাতজন খেলোয়াড় একটি মানচিত্রের চারপাশে টুকরো টুকরো করে ইউরোপের ভৌগলিক নিয়ন্ত্রণের জন্য প্রতিযোগিতা করে।
বিজ্ঞান ডটকমে প্রকাশিত একটি গবেষণাপত্রে মেটা মো সিসেরো, কূটনীতিতে মানব-স্তরের পারফরম্যান্স অর্জনকারী প্রথম এআই এজেন্ট ছিলেন, একটি খেলা যেখানে সহযোগিতা এবং প্রতিযোগিতা উভয়ই জড়িত যা সাতজন খেলোয়াড়ের মধ্যে প্রাকৃতিক ভাষা আলোচনা এবং কৌশলগত সমন্বয়ের উপর জোর দেয়।
অনলাইন কূটনীতির মোট 40টি বেনামী গেমে, মেটা বলেছে যে সিসেরো মানব খেলোয়াড়দের গড় স্কোর দ্বিগুণেরও বেশি অর্জন করেছে এবং একের বেশি গেম খেলেছে এমন অংশগ্রহণকারীদের শীর্ষ 10% এর মধ্যে স্থান পেয়েছে।
নেতৃস্থানীয় প্রযুক্তি গ্রুপ বলেছে যে এটি কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে তার কৌশলগত এবং দীর্ঘমেয়াদী লক্ষ্যের অংশ ছিল এমন এজেন্ট তৈরি করা যা প্রাকৃতিক ভাষায় মানুষের সাথে পরিকল্পনা, সমন্বয় এবং আলোচনা করতে পারে।
সিসেরো কতটা গুরুত্বপূর্ণ?
মেটা বলে যে সিসেরো বেশ তাৎপর্যপূর্ণ কারণ এআই অ-প্রতিকূল পরিবেশের উপর নির্ভর করে।
অতীতের বিপরীতে যেখানে মাল্টি-এজেন্ট এআই-এর পূর্বে বড় সাফল্যগুলি সম্পূর্ণরূপে প্রতিকূল পরিবেশে হয়েছে, যেমন দাবা, গো এবং পোকার, যেখানে যোগাযোগের কোন মূল্য নেই, সিসেরো একটি কৌশলগত যুক্তি ইঞ্জিন এবং নিয়ন্ত্রণযোগ্য সংলাপ মডিউল নিয়োগ করে।
এই কারণে, মেটা বলে যে কূটনীতি মাল্টি-এজেন্ট শেখার জন্য একটি চ্যালেঞ্জিং বেঞ্চমার্ক হিসেবে কাজ করেছে।
"সিসেরো একটি কৌশলগত যুক্তি ইঞ্জিন সহ একটি নিয়ন্ত্রণযোগ্য সংলাপ মডিউল যুক্ত করে। গেমের প্রতিটি পয়েন্টে, সিসেরো মডেল করে কিভাবে অন্যান্য খেলোয়াড়রা গেমের অবস্থা এবং তাদের কথোপকথনের উপর ভিত্তি করে কাজ করতে পারে," মেটা বলেন।
AI তারপর পরিকল্পনা করে যে কীভাবে খেলোয়াড়রা তাদের পারস্পরিক সুবিধার জন্য সমন্বয় করতে পারে এবং এই পরিকল্পনাগুলিকে প্রাকৃতিক ভাষা বার্তাগুলিতে মানচিত্র করে।
সুস্থ অবিশ্বাস
সিসেরো অন্যান্য খেলোয়াড়দের কাছ থেকে অন্ধভাবে বিশ্বাস করা প্রস্তাব এড়িয়ে যায় এবং কম "অনুমানিত মূল্য" আছে এবং যা তার নিজস্ব স্বার্থের সমান্তরালভাবে চলে এমন পরিকল্পনা প্রত্যাখ্যান করে।
কূটনীতিতে কথোপকথন ব্যক্তিগতভাবে খেলোয়াড়দের জোড়ার মধ্যে ঘটে থাকে এই কারণে, সিসেরো ভবিষ্যদ্বাণী করার সময় খেলোয়াড়দের অ্যাক্সেসের তথ্যের কারণ এবং বিশ্লেষণ করে।
"উদাহরণস্বরূপ, যদি সিসেরো একটি প্রতিপক্ষের বিরুদ্ধে একটি মিত্রের সাথে একটি আক্রমণের সমন্বয় সাধন করে, তবে প্রতিপক্ষের নীতি সম্পর্কে সিসেরোর ভবিষ্যদ্বাণীটি অবশ্যই এই সত্যটির জন্য দায়ী যে প্রতিপক্ষ উদ্দেশ্যমূলক সমন্বয় সম্পর্কে সচেতন নয়,"বলেছেন মেটা।
মেটা বলেছে যে এটি 40শে আগস্ট থেকে 19ই অক্টোবর, 13 এর মধ্যে মানব খেলোয়াড়দের একটি অনলাইন লীগে কূটনীতির 2022টি গেমে বেনামে সিসেরোতে প্রবেশ করেছে।
72 ঘন্টা খেলার সময় যেটিতে 5,277টি বার্তা পাঠানো জড়িত ছিল, সিসেরো শীর্ষ 10% অংশগ্রহণকারীদের মধ্যে স্থান পেয়েছে যারা একাধিক গেম খেলেছে, এটি বলেছে।
মেটা বলে যে এটি webDiplomacy.net এ অনলাইনে খেলা কূটনীতির 125,261টি গেম থেকে ডেটা সংগ্রহ করেছে। এই গেমগুলির মধ্যে, মোট 40,408টি গেমে সংলাপ রয়েছে, যেখানে খেলোয়াড়দের মধ্যে মোট 12,901,662টি বার্তা আদান-প্রদান করা হয়েছে।
মেটা নোট, এর নতুন এআই নিখুঁত থেকে অনেক দূরে
সিসেরো এমন বার্তা পাঠিয়েছে যাতে ত্রুটি রয়েছে, কখনও কখনও তার নিজস্ব পরিকল্পনার বিরোধিতা করে এবং কৌশলগত ভুল করে।
কিন্তু মেটা জোর দিয়ে বলে যে মানুষ তবুও AI এর সাথে অন্য প্লেয়ারদের সাথে সহযোগিতা করা বেছে নিয়েছে এটা বুঝতে না পেরে যে এটি একটি বট।
“গেমগুলির প্রায় সমস্ত পূর্ববর্তী AI ব্রেকথ্রুগুলি দাবা, গো, হেডস-আপ পোকার এবং স্টারক্রাফ্ট সহ দুই-প্লেয়ার জিরো-সম (2p0s) সেটিংসে ছিল৷ সীমিত 2p0s গেমগুলিতে, নির্দিষ্ট রিইনফোর্সমেন্ট লার্নিং (RL) অ্যালগরিদম যা নিজেদের বিরুদ্ধে খেলে শেখে - একটি প্রক্রিয়া যা স্ব-খেলন নামে পরিচিত - এমন একটি নীতিতে রূপান্তরিত হবে যা ভারসাম্যপূর্ণ গেমগুলিতে প্রত্যাশার ক্ষেত্রে অপরাজেয়," মেটা পেপারে যোগ করেছে। "অন্য কথায়, যেকোন সীমাবদ্ধ 2p0s গেমটি পর্যাপ্ত গণনা এবং মডেল ক্ষমতা সহ স্ব-খেলার মাধ্যমে সমাধান করা যেতে পারে।"
যাইহোক, মেটা সহযোগিতার সাথে জড়িত গেমগুলির বিষয়ে বলেছে, মানুষের ডেটা ছাড়া স্ব-খেলার এমন একটি নীতি খুঁজে পাওয়ার নিশ্চয়তা নেই যা মানুষের সাথে ভাল পারফর্ম করে, এমনকি অসীম গণনা এবং মডেল ক্ষমতা সহ, কারণ সেল্ফ-প্লে এজেন্ট একটি নীতিতে রূপান্তরিত হতে পারে যা মানুষের নিয়ম এবং প্রত্যাশার সাথে বেমানান।
সিসেরো সম্ভাব্য কর্মের প্রত্যাশা করে
মেটা যোগ করেছে যে সিসেরো বোর্ডের অবস্থা এবং সংলাপের উপর ভিত্তি করে প্রতিটি খেলোয়াড়ের জন্য সম্ভাব্য ক্রিয়াকলাপের প্রত্যাশা করে, এটিকে RL-প্রশিক্ষিত মডেলগুলি ব্যবহার করে পরিকল্পনা অ্যালগরিদমের সূচনা পয়েন্ট হিসাবে ব্যবহার করে।
AI একটি কৌশলগত যুক্তি মডিউল ব্যবহার করে বুদ্ধিমত্তার সাথে উদ্দেশ্য এবং ক্রিয়া নির্বাচন করতে, কোম্পানি বলে।
এই মডিউলটি তারপরে একটি পরিকল্পনা অ্যালগরিদম চালায় যা গেমের অবস্থা এবং সংলাপের উপর ভিত্তি করে অন্যান্য সমস্ত খেলোয়াড়ের নীতির ভবিষ্যদ্বাণী করে এবং বিভিন্ন ক্রিয়াকলাপের শক্তি এবং মানব গেমগুলিতে তাদের সম্ভাবনা উভয়ের জন্য অ্যাকাউন্ট করে। এই তথ্য এবং ভেরিয়েবলের উপর ভিত্তি করে, সিসেরোর জন্য সর্বোত্তম সর্বোত্তম পদক্ষেপ নেওয়া হয়।
মেটার প্রতিষ্ঠাতা এবং সিইও মার্ক জুকারবার্গের অধীনে, কোম্পানিটি প্রযুক্তির ভবিষ্যত হিসাবে দেখা দ্রুত বর্ধনশীল শিল্পের সুবিধা নিতে এআই এবং মেটাভার্সে প্রচুর বিনিয়োগ করছে।