ہر کوئی ChatGPT چیٹ بوٹ کو کیوں پسند کرتا ہے۔

ماخذ نوڈ: 1771427

ایک اور گیم جو طویل عرصے سے مصنوعی ذہانت (AI) کے لیے بہت مشکل سمجھی جاتی تھی وہ بوٹس پر گر گئی ہے: Stratego۔

ڈیپ نیش، ایک AI جو لندن میں قائم کمپنی نے بنایا ہے۔ Deepmind، اب Stratego میں ماہر انسانوں سے میل کھاتا ہے، ایک بورڈ گیم جس میں نامکمل معلومات کے خلاف طویل مدتی حکمت عملی کی ضرورت ہوتی ہے۔

یہ تازہ ترین کارنامہ ایسے کھیلوں میں AIs کے لیے ایک اور بڑی جیت کے بعد سامنے آیا ہے جو پہلے انسانوں کی قوت سمجھے جاتے تھے۔

ابھی پچھلے ہفتے، میٹا کا سیسرو، ایک AI جو انسانی کھلاڑیوں کو پیچھے چھوڑ سکتا ہے۔ ڈپلومیسی کے کھیل میں، آن لائن مخالفین کو پیچھے چھوڑ کر تاریخ رقم کی۔

اسٹریٹجک استدلال اور گیم کا مطالعہ کرنے والے کمپیوٹر سائنس دان این آربر میں مشی گن یونیورسٹی کے مائیکل ویلمین کہتے ہیں، "حالیہ برسوں میں AI کے ذریعے جس شرح سے مختلف گیم فیچرز کو فتح یا نئی سطحوں تک پہنچایا گیا ہے وہ کافی قابل ذکر ہے۔" نظریہ.

ویلمین نے کہا کہ "حکمت عملی اور ڈپلومیسی ایک دوسرے سے کافی مختلف ہیں، اور ان میں چیلنجنگ خصوصیات بھی ہیں خاص طور پر ان گیمز سے مختلف ہیں جن کے لیے یکساں سنگ میل طے کیے گئے ہیں۔"

نامکمل معلومات

گیم میں ایسی خصوصیات ہیں جو عام طور پر شطرنج، گو یا پوکر سے کہیں زیادہ پیچیدہ ہوتی ہیں۔ شطرنج، گو اور پوکر سبھی میں AIs نے مہارت حاصل کی ہے۔

Stratego کے کھیل میں، دو کھلاڑی ایک بورڈ پر 40 ٹکڑے لگاتے ہیں، لیکن یہ نہیں دیکھنا چاہیے کہ ان کے مخالف کے ٹکڑے کیا ہیں۔

کھیل کا مقصد ٹکڑوں کو باری باری منتقل کرنا ہے تاکہ مخالف کو ختم کیا جا سکے اور جھنڈا پکڑا جا سکے۔ 

Stratego کے گیم ٹری - گیم کے ممکنہ طور پر چلنے کے تمام ممکنہ طریقوں کا ایک گراف - Go's 10535 کے مقابلے میں 10360 ریاستیں ہیں۔ 

جب کھیل کے آغاز میں نامکمل معلومات کی بات آتی ہے، تو Stratego کے پاس 1066 ممکنہ نجی پوزیشنیں ہیں، جو کہ دو کھلاڑیوں کے ٹیکساس ہولڈم پوکر میں صرف 106 ایسے ابتدائی حالات کو بونا بناتا ہے۔

پیرس میں مقیم ڈیپ مائنڈ کے محقق جولین پیرولٹ کہتے ہیں، "اسٹریٹیگو میں ممکنہ نتائج کی تعداد کی سراسر پیچیدگی کا مطلب ہے الگورتھم جو کامل معلوماتی گیمز پر اچھی کارکردگی کا مظاہرہ کرتے ہیں، اور وہ بھی جو پوکر کے لیے کام کرتے ہیں، کام نہیں کرتے"۔

ڈیپ نیش کو پیرولٹ اور ان کے ساتھیوں نے تیار کیا تھا۔

نیش سے متاثر بوٹ

بوٹ کا نام مشہور امریکی ریاضی دان جان نیش کو خراج تحسین ہے، جنہوں نے نیش کے توازن کا نظریہ پیش کیا جس کے مطابق "حکمت عملیوں کا ایک مستحکم مجموعہ" ہے جس پر کھلاڑی اس انداز میں عمل کر سکتے ہیں کہ حکمت عملی تبدیل کرنے سے کوئی کھلاڑی فائدہ نہ اٹھا سکے۔ اپنے بل بوتے پے. اس طرح، گیمز میں صفر، ایک یا بہت سے نیش توازن ہوتے ہیں۔

ڈیپ نیش نیش توازن تلاش کرنے کے لیے کمک سیکھنے کے الگورتھم اور ایک گہرے نیورل نیٹ ورک کو یکجا کرتا ہے۔ 

عام طور پر، کمک سیکھنا وہ ہے جہاں ایک ذہین ایجنٹ (کمپیوٹر پروگرام) ماحول کے ساتھ تعامل کرتا ہے اور کھیل کی ہر حالت کے لیے کارروائی کا حکم دینے کے لیے بہترین پالیسی سیکھتا ہے۔ 

ایک بہترین پالیسی کے لیے، DeepNash نے اپنے خلاف کل 5.5 بلین گیمز کھیلے۔ 

خلاصہ یہ کہ اگر ایک فریق کو سزا دی جاتی ہے تو دوسرے کو انعام دیا جاتا ہے، اور نیورل نیٹ ورک کے متغیرات - جو پالیسی کی نمائندگی کرتے ہیں - کو اسی کے مطابق موافقت دی جاتی ہے۔

AI حکمت عملی میں انسانوں کو شکست دیتا ہے - ڈیپ میش سے ملیں۔

AI حکمت عملی میں انسانوں کو شکست دیتا ہے - ڈیپ میش سے ملیں۔

کسی مرحلے پر، ڈیپ نیش تقریباً نیش توازن پر بدل جاتا ہے۔ دیگر بوٹس کے برعکس، ڈیپ نیش s کے بغیر خود کو بہتر بناتا ہے۔کھیل کے درخت کے ذریعے تلاش.

دو ہفتوں کے دورانیے تک، ڈیپ نیش نے آن لائن گیمز پلیٹ فارم، گراوون پر انسانی حکمت عملی کے کھلاڑیوں کے خلاف کھیلا۔

50 میچوں میں مقابلہ کرنے کے بعد، Ai 2002 کے بعد سے تمام Gravon Stratego کھلاڑیوں میں تیسرے نمبر پر تھا۔ 

"ہمارا کام یہ ظاہر کرتا ہے کہ Stratego جیسی پیچیدہ گیم، جس میں نامکمل معلومات شامل ہیں، اسے حل کرنے کے لیے تلاش کی تکنیکوں کی ضرورت نہیں ہے،" ٹیم کے رکن کارل ٹوئلز کہتے ہیں، جو پیرس میں مقیم ڈیپ مائنڈ کے محقق ہیں۔ "یہ اے آئی میں ایک بہت بڑا قدم ہے۔"

دوسرے محققین بھی اس کارنامے سے متاثر ہیں۔

متاثر کن نتائج

"نتائج متاثر کن ہیں،" نیو یارک سٹی میں واقع میٹا اے آئی کے ایک محقق، اور ٹیم کے ایک رکن سے اتفاق کرتے ہیں، جس نے 2019 میں پوکر کھیلنے والے AI Pluribus4 کی اطلاع دی تھی۔

میٹا میں، فیس بک کی پیرنٹ کمپنی، براؤن اور اس کے ساتھیوں نے ایک AI بنایا جو ڈپلومیسی کھیل سکتا ہے، ایک ایسا کھیل جہاں سات کھلاڑی نقشے پر ٹکڑوں کو ادھر ادھر منتقل کر کے یورپ کے جغرافیائی کنٹرول کے لیے مقابلہ کرتے ہیں۔

ڈپلومیسی میں، مقصد یونٹس (بیڑے اور فوجوں) کو منتقل کرکے سپلائی مراکز کا کنٹرول حاصل کرنا ہے۔ 

میٹا کا کہنا ہے کہ سیسرو کافی اہم ہے کیونکہ AI غیر مخالف ماحول پر انحصار کرتا ہے۔

ماضی کے برعکس جہاں ملٹی ایجنٹ AI کے لیے پہلے کی بڑی کامیابیاں خالصتاً مخالف ماحول میں رہی ہیں، جیسے Chess، Go، اور Poker، جہاں مواصلات کی کوئی اہمیت نہیں ہے، Cicero ایک اسٹریٹجک استدلال کے انجن اور قابل کنٹرول ڈائیلاگ ماڈیول کو استعمال کرتا ہے۔

براؤن کہتے ہیں، "جب آپ دو کھلاڑیوں کے زیرو سم گیمز سے آگے بڑھتے ہیں، تو نیش توازن کا خیال انسانوں کے ساتھ اچھا کھیلنے کے لیے اتنا مفید نہیں رہتا،" براؤن کہتے ہیں۔

براؤن اور اس کی ٹیم نے انسانی کھلاڑیوں پر مشتمل ڈپلومیسی کے آن لائن ورژن کے 125,261 گیمز کے ڈیٹا کا استعمال کرتے ہوئے Cicero کو تربیت دی۔ 

سیلف پلے ڈیٹا اور ایک اسٹریٹجک ریجننگ ماڈیول (SRM) کا استعمال کرتے ہوئے، Cicero نے گیم کی حالت اور جمع شدہ پیغامات، دوسرے کھلاڑیوں کی ممکنہ چالوں اور پالیسیوں سے اندازہ لگانا سیکھا۔ 

AI حکمت عملی میں انسانوں کو شکست دیتا ہے - ڈیپ میش سے ملیں۔

AI حکمت عملی میں انسانوں کو شکست دیتا ہے - ڈیپ میش سے ملیں۔

میٹا کا کہنا ہے کہ اس نے webDiplomacy.net پر آن لائن کھیلی جانے والی ڈپلومیسی کے 125,261 گیمز سے ڈیٹا اکٹھا کیا۔ ان گیمز میں سے کل 40,408 گیمز ڈائیلاگ پر مشتمل تھے جن میں کھلاڑیوں کے درمیان کل 12,901,662 پیغامات کا تبادلہ ہوا۔

حقیقی دنیا کا برتاؤ

براؤن کا خیال ہے کہ گیم کھیلنے والے بوٹس جیسے سیسرو انسانوں کے ساتھ بات چیت کر سکتے ہیں اور "سب سے بہترین یا حتی کہ غیر معقول انسانی اعمال حقیقی دنیا کی ایپلی کیشنز کے لیے راہ ہموار کر سکتے ہیں۔"

"اگر آپ خود سے چلنے والی کار بنا رہے ہیں، تو آپ یہ نہیں سمجھنا چاہیں گے کہ سڑک پر موجود دیگر تمام ڈرائیور بالکل عقلی ہیں، اور بہترین برتاؤ کرنے والے ہیں،" وہ کہتے ہیں۔

Cicero، انہوں نے مزید کہا، اس سمت میں ایک بڑا قدم ہے۔ "ہمارا اب بھی کھیل کی دنیا میں ایک پاؤں ہے، لیکن اب ہمارا ایک پاؤں حقیقی دنیا میں بھی ہے۔"

ویلمین جیسے دوسرے لوگ متفق ہیں، لیکن اصرار کرتے ہیں کہ ابھی مزید کام کرنے کی ضرورت ہے۔ وہ کہتے ہیں کہ "ان میں سے بہت سی تکنیکیں واقعی تفریحی کھیلوں سے پرے متعلقہ ہیں" حقیقی دنیا کی ایپلی کیشنز سے۔ "اس کے باوجود، کسی وقت، سرکردہ AI ریسرچ لیبز کو تفریحی ترتیبات سے آگے بڑھنے کی ضرورت ہے، اور یہ معلوم کرنے کی ضرورت ہے کہ squishier حقیقی دنیا کے 'گیمز' پر سائنسی پیشرفت کی پیمائش کیسے کی جائے جس کا ہمیں اصل خیال ہے۔"

/میٹا نیوز.

ٹائم اسٹیمپ:

سے زیادہ میٹا نیوز