Why Everybody Loves The ChatGPT Chatbot

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

কৃত্রিম বুদ্ধিমত্তার (এআই) জয় করার জন্য আরেকটি গেমটি অনেকদিন ধরেই খুব চ্যালেঞ্জিং বলে মনে করা হচ্ছে বটদের কাছে পড়েছে: স্ট্র্যাটেগো।

DeepNash, লন্ডন ভিত্তিক কোম্পানি দ্বারা তৈরি একটি AI DeepMind, এখন স্ট্র্যাটেগোতে বিশেষজ্ঞ মানুষের সাথে মেলে, একটি বোর্ড গেম যা অপূর্ণ তথ্যের বিরুদ্ধে দীর্ঘমেয়াদী কৌশলগত চিন্তার প্রয়োজন।

এই সর্বশেষ কীর্তিটি AIs-এর জন্য গেমগুলিতে আরও একটি বড় জয়ের পরিপ্রেক্ষিতে আসে যা আগে মানুষের শক্তি বলে মনে করা হয়েছিল।

মাত্র গত সপ্তাহে, মেটার সিসেরো, একটি এআই যে মানুষের খেলোয়াড়দের ছাড়িয়ে যেতে পারে কূটনীতির খেলায়, অনলাইনে প্রতিপক্ষকে ছাড়িয়ে যাওয়ার ইতিহাস তৈরি করেছে৷

"সাম্প্রতিক বছরগুলিতে AI দ্বারা গুণগতভাবে বিভিন্ন গেমের বৈশিষ্ট্যগুলিকে যে হারে জয় করা হয়েছে - বা নতুন স্তরে আয়ত্ত করা হয়েছে - তা বেশ লক্ষণীয়," অ্যান আর্বরের মিশিগান বিশ্ববিদ্যালয়ের মাইকেল ওয়েলম্যান বলেছেন, একজন কম্পিউটার বিজ্ঞানী যিনি কৌশলগত যুক্তি এবং গেম অধ্যয়ন করেন। তত্ত্ব

"কৌশল এবং কূটনীতি একে অপরের থেকে বেশ আলাদা, এবং চ্যালেঞ্জিং বৈশিষ্ট্যগুলিও রয়েছে যা গেমগুলির থেকে উল্লেখযোগ্যভাবে আলাদা যার জন্য সাদৃশ্যপূর্ণ মাইলফলক পৌঁছেছে," ওয়েলম্যান বলেছেন।

অসম্পূর্ণ তথ্য

গেমটিতে এমন বৈশিষ্ট্য রয়েছে যা সাধারণত দাবা, গো বা পোকারের চেয়ে অনেক বেশি জটিল। দাবা, গো এবং পোকার সবই এআই দ্বারা আয়ত্ত করা হয়েছে।

স্ট্র্যাটেগো খেলায়, দুইজন খেলোয়াড় একটি বোর্ডে 40টি করে টুকরো রাখেন, কিন্তু তাদের প্রতিপক্ষের টুকরোগুলো দেখতে হবে না।

গেমটির উদ্দেশ্য হল প্রতিপক্ষকে নির্মূল করতে এবং একটি পতাকা ক্যাপচার করার জন্য টুকরো টুকরো করা।

স্ট্র্যাটেগোর গেম ট্রি - গেমটি যেভাবে যেতে পারে তার একটি গ্রাফ - Go এর 10535 এর বিপরীতে 10360টি স্টেট রয়েছে৷

যখন খেলার শুরুতে অসম্পূর্ণ তথ্যের কথা আসে, তখন স্ট্র্যাটেগোতে 1066 সম্ভাব্য ব্যক্তিগত অবস্থান রয়েছে, একটি চিত্র যা দুই-খেলোয়াড় টেক্সাস হোল্ড'ম পোকারে মাত্র 106টি এমন প্রারম্ভিক পরিস্থিতিকে বামন করে।

প্যারিসে অবস্থিত ডিপমাইন্ড গবেষক জুলিয়েন পেরোলাট বলেছেন, "স্ট্র্যাটেগোতে সম্ভাব্য ফলাফলের সংখ্যার নিছক জটিলতার অর্থ হল যে অ্যালগরিদমগুলি নিখুঁত-তথ্যযুক্ত গেমগুলিতে ভাল পারফর্ম করে, এবং এমনকি যেগুলি পোকারের জন্য কাজ করে, সেগুলিও কাজ করে না।"

ডিপনাশ পেরোলাট এবং তার সহকর্মীরা তৈরি করেছিলেন।

ন্যাশ অনুপ্রাণিত বট

বটটির নাম হল বিখ্যাত মার্কিন গণিতবিদ জন ন্যাশের প্রতি শ্রদ্ধা, যিনি ন্যাশ ভারসাম্য তত্ত্ব নিয়ে এসেছিলেন যা মনে করে যে "কৌশলের একটি স্থিতিশীল সেট" আছে যা খেলোয়াড়দের এমনভাবে অনুসরণ করা যেতে পারে যে কৌশল পরিবর্তন করে কোনো খেলোয়াড় উপকৃত হয় না। তাদের নিজেদের. যেমন, গেমগুলিতে শূন্য, এক বা একাধিক ন্যাশ ভারসাম্য থাকে।

DeepNash একটি ন্যাশ ভারসাম্য খুঁজে পেতে শক্তিবৃদ্ধি-শিক্ষার অ্যালগরিদম এবং একটি গভীর নিউরাল নেটওয়ার্ককে একত্রিত করে।

সাধারনত, রিইনফোর্সমেন্ট লার্নিং হল যেখানে একজন বুদ্ধিমান এজেন্ট (কম্পিউটার প্রোগ্রাম) পরিবেশের সাথে মিথস্ক্রিয়া করে এবং গেমের প্রতিটি স্টেটের জন্য ক্রিয়া নির্দেশ করার জন্য সর্বোত্তম নীতি শিখে।

একটি সর্বোত্তম নীতির জন্য, DeepNash নিজের বিরুদ্ধে মোট 5.5 বিলিয়ন গেম খেলেছে।

সংক্ষেপে, যদি এক পক্ষ শাস্তি পায়, অন্য পক্ষকে পুরস্কৃত করা হয়, এবং নিউরাল নেটওয়ার্কের ভেরিয়েবলগুলি - যা নীতির প্রতিনিধিত্ব করে - সেই অনুযায়ী টুইক করা হয়৷

এআই কৌশলে মানুষকে হারায় – ডিপম্যাশের সাথে দেখা করুন

কিছু পর্যায়ে, DeepNash একটি আনুমানিক ন্যাশ সাম্যাবস্থায় একত্রিত হয়। অন্যান্য বট থেকে ভিন্ন, DeepNash নিজেকে s ছাড়াই অপ্টিমাইজ করেখেলা গাছের মধ্য দিয়ে কান দেওয়া

দুই সপ্তাহের জন্য, ডিপনাশ অনলাইন গেম প্ল্যাটফর্ম, গ্র্যাভনে মানব স্ট্র্যাটেগো প্লেয়ারদের বিরুদ্ধে খেলেছে।

50টি ম্যাচে প্রতিদ্বন্দ্বিতা করার পর, Ai 2002 সাল থেকে সমস্ত গ্র্যাভন স্ট্র্যাটেগো খেলোয়াড়দের মধ্যে তৃতীয় স্থানে ছিল।

"আমাদের কাজ দেখায় যে স্ট্র্যাটেগোর মতো একটি জটিল গেম, অসম্পূর্ণ তথ্য জড়িত, এটি সমাধান করার জন্য অনুসন্ধান কৌশলগুলির প্রয়োজন হয় না," বলেছেন দলের সদস্য কার্ল টুয়েলস, প্যারিসে অবস্থিত ডিপমাইন্ড গবেষক৷ "এটি AI-তে একটি সত্যিই বড় পদক্ষেপ।"

অন্যান্য গবেষকরাও এই কৃতিত্ব দ্বারা মুগ্ধ।

চিত্তাকর্ষক ফলাফল

"ফলগুলি চিত্তাকর্ষক," নোম ব্রাউন সম্মত হন, মেটা এআই-এর একজন গবেষক, নিউ ইয়র্ক সিটিতে সদর দফতর এবং দলের একজন সদস্য যে 2019 সালে পোকার-বাজানো AI Pluribus4 রিপোর্ট করেছিল৷

মেটাতে, Facebook-এর মূল সংস্থা, ব্রাউন এবং তার সহকর্মীরা একটি AI তৈরি করেছে যা কূটনীতি খেলতে পারে, এমন একটি খেলা যেখানে সাতজন খেলোয়াড় একটি মানচিত্রের চারপাশে টুকরো টুকরো করে ইউরোপের ভৌগলিক নিয়ন্ত্রণের জন্য প্রতিযোগিতা করে।

কূটনীতিতে, লক্ষ্য হল ইউনিটগুলি (বহর এবং সেনাবাহিনী) সরানোর মাধ্যমে সরবরাহ কেন্দ্রগুলির নিয়ন্ত্রণ নেওয়া।

মেটা বলে যে সিসেরো বেশ তাৎপর্যপূর্ণ কারণ এআই অ-প্রতিকূল পরিবেশের উপর নির্ভর করে।

অতীতের বিপরীতে যেখানে মাল্টি-এজেন্ট এআই-এর পূর্বে বড় সাফল্যগুলি সম্পূর্ণরূপে প্রতিকূল পরিবেশে হয়েছে, যেমন দাবা, গো এবং পোকার, যেখানে যোগাযোগের কোন মূল্য নেই, সিসেরো একটি কৌশলগত যুক্তি ইঞ্জিন এবং নিয়ন্ত্রণযোগ্য সংলাপ মডিউল নিয়োগ করে।

"যখন আপনি দুই-খেলোয়াড়ের শূন্য-সমষ্টি গেমের বাইরে যান, তখন ন্যাশ ভারসাম্যের ধারণাটি মানুষের সাথে ভাল খেলার জন্য আর উপযোগী হয় না," ব্রাউন বলেছেন।

ব্রাউন এবং তার দল মানব খেলোয়াড়দের জড়িত কূটনীতির একটি অনলাইন সংস্করণের 125,261টি গেমের ডেটা ব্যবহার করে সিসেরোকে প্রশিক্ষণ দিয়েছে।

সেলফ-প্লে ডেটা এবং স্ট্র্যাটেজিক রিজনিং মডিউল (এসআরএম) ব্যবহার করে, সিসেরো গেমের অবস্থা এবং জমে থাকা বার্তা, অন্যান্য খেলোয়াড়দের সম্ভাব্য চাল এবং নীতির দ্বারা বিচার-বিবেচনা করতে শিখেছে।

এআই কৌশলে মানুষকে হারায় – ডিপম্যাশের সাথে দেখা করুন

মেটা বলে যে এটি webDiplomacy.net এ অনলাইনে খেলা কূটনীতির 125,261টি গেম থেকে ডেটা সংগ্রহ করেছে। এই গেমগুলির মধ্যে, মোট 40,408টি গেমে সংলাপ রয়েছে, যেখানে খেলোয়াড়দের মধ্যে মোট 12,901,662টি বার্তা আদান-প্রদান করা হয়েছে।

বাস্তব বিশ্বের আচরণ

ব্রাউন বিশ্বাস করেন যে সিসেরোর মতো গেম-প্লেয়িং বট মানুষের সাথে যোগাযোগ করতে পারে এবং "অনুপস্থিত বা এমনকি অযৌক্তিক মানুষের ক্রিয়াকলাপ বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির জন্য পথ প্রশস্ত করতে পারে।"

"আপনি যদি একটি স্ব-ড্রাইভিং গাড়ি তৈরি করেন, তাহলে আপনি অনুমান করতে চান না যে রাস্তায় অন্য সব চালক পুরোপুরি যুক্তিবাদী, এবং সর্বোত্তম আচরণ করতে যাচ্ছেন," তিনি বলেছেন।

সিসেরো, তিনি যোগ করেছেন, এই দিকে একটি বড় পদক্ষেপ। "আমাদের এখনও খেলার জগতে এক পা আছে, কিন্তু এখন বাস্তব জগতেও আমাদের এক পা আছে।"

ওয়েলম্যানের মতো অন্যরা একমত, কিন্তু জোর দেন যে আরও কাজ করা দরকার। "এই কৌশলগুলির অনেকগুলি প্রকৃতপক্ষে বিনোদনমূলক গেমগুলির বাইরেও প্রাসঙ্গিক" বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির জন্য, তিনি বলেছেন। "তবুও, কিছু সময়ে, নেতৃস্থানীয় AI গবেষণা ল্যাবগুলিকে বিনোদনমূলক সেটিংসের বাইরে যেতে হবে এবং আমরা আসলে যে স্কুইশিয়ার রিয়েল-ওয়ার্ল্ড 'গেম'গুলির বিষয়ে বৈজ্ঞানিক অগ্রগতি পরিমাপ করব তা খুঁজে বের করতে হবে।"

/মেটানিউজ.

সময় স্ট্যাম্প: ডিসেম্বর 12, 2022ডিসেম্বর 13, 2022

সময় স্ট্যাম্প: এপ্রিল 27, 2023

হার্ভার্ড বিশেষজ্ঞ মেটাভার্স 'ট্যাক্স হেভেন' সম্পর্কে সতর্ক করেছেন

উত্স ক্লাস্টার:

মেটানিউজ

উত্স নোড: 2865575

সময় স্ট্যাম্প: সেপ্টেম্বর 6, 2023

ওজ লেবার পার্টি, AI থেকে চাকরি রক্ষা করার জন্য ওয়ার্কার্স ইউনিয়ন

উত্স ক্লাস্টার:

মেটানিউজ

উত্স নোড: 2809204

সময় স্ট্যাম্প: আগস্ট 7, 2023

চীন ক্রিপ্টো এবং এআই জালিয়াতি রোধে শক্তিশালী ফ্রেমওয়ার্ক প্রকাশ করেছে

উত্স ক্লাস্টার:

মেটানিউজ

উত্স নোড: 2810225

সময় স্ট্যাম্প: আগস্ট 8, 2023

কেন সবাই ChatGPT চ্যাটবট পছন্দ করে

প্লেটো দ্বারা প্রকাশিত

অসম্পূর্ণ তথ্য

ন্যাশ অনুপ্রাণিত বট

চিত্তাকর্ষক ফলাফল

বাস্তব বিশ্বের আচরণ

থেকে আরো মেটানিউজ

মেটাভার্স গেমিং মার্কেট 119.2 সালের মধ্যে $2028 বিলিয়নে পৌঁছাবে

ডিজনি ড্রিমলাইট আপডেট শীঘ্রই প্রকাশিত হচ্ছে

মেটা মেটাভার্স রিয়েলিটি হিসাবে অ্যাপল ভিশন প্রো প্রস্তুত করে

দেখার জন্য 3টি শীর্ষ হেডসেট: Samsung XR চশমা, Meta Quest Pro, Apple Reality Pro৷

হার্ভার্ড বিশেষজ্ঞ মেটাভার্স 'ট্যাক্স হেভেন' সম্পর্কে সতর্ক করেছেন

ওজ লেবার পার্টি, AI থেকে চাকরি রক্ষা করার জন্য ওয়ার্কার্স ইউনিয়ন

চীন ক্রিপ্টো এবং এআই জালিয়াতি রোধে শক্তিশালী ফ্রেমওয়ার্ক প্রকাশ করেছে

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব