De ce toată lumea iubește Chatbot-ul ChatGPT

Nodul sursă: 1771427

Un alt joc despre care sa crezut mult timp a fi foarte dificil de cucerit pentru inteligența artificială (AI) a căzut în mâinile roboților: Stratego.

DeepNash, un AI creat de o companie cu sediul la Londra DeepMind, acum se potrivește cu oamenii experți de la Stratego, un joc de societate care necesită gândire strategică pe termen lung împotriva informațiilor imperfecte.

Această ultimă performanță vine în urma unei alte victorii majore pentru AI în jocurile despre care se credea că sunt punctul forte al oamenilor.

Chiar săptămâna trecută, Meta este Cicero, un AI care poate depăși jucătorii umani la jocul Diplomacy, a făcut istorie pentru a depăși în deșteptare adversarii online.

„Rata cu care caracteristicile calitativ diferite ale jocului au fost cucerite – sau stăpânite la noi niveluri – de AI în ultimii ani este destul de remarcabilă”, spune Michael Wellman de la Universitatea Michigan din Ann Arbor, un informatician care studiază raționamentul strategic și jocul. teorie.

„Stratego și Diplomacy sunt destul de diferite unul de celălalt și au, de asemenea, caracteristici provocatoare, deosebit de diferite de jocurile pentru care au fost atinse repere similare”, a spus Wellman.

Informații imperfecte

Jocul are caracteristici care sunt în general mult mai complicate decât șahul, Go sau pokerul. Șah, Go și Poker au fost toate stăpânite de AI.

În jocul Stratego, doi jucători pun câte 40 de piese fiecare pe o tablă, dar nu trebuie să vadă care sunt piesele adversarului lor.

Obiectivul jocului este de a muta piese pe rând pentru a le elimina pe cele ale adversarului și a captura un steag. 

Arborele de joc al lui Stratego - un grafic al tuturor modalităților posibile în care ar putea merge jocul - are 10535 de stări față de 10360 ale lui Go. 

Când vine vorba de informații imperfecte la începutul unui joc, Stratego are 1066 de poziții private posibile, o cifră care depășește doar 106 astfel de situații de start în pokerul Texas Hold'em pentru doi jucători.

„Complexitatea absolută a numărului de rezultate posibile în Stratego înseamnă algoritmi care funcționează bine la jocurile cu informații perfecte și chiar și cei care funcționează pentru poker, nu funcționează”, spune Julien Perolat, cercetător DeepMind cu sediul la Paris.

DeepNash a fost dezvoltat de Perolat și colegii săi.

Bot inspirat de Nash

Numele botului este un tribut adus celebrului matematician american John Nash, care a venit cu teoria echilibrului Nash care presupune că există un „set stabil de strategii” care poate fi urmat de jucători într-o manieră în care niciun jucător nu beneficiază de schimbarea strategiei. pe cont propriu. Ca atare, jocurile tind să aibă zero, unul sau mai multe echilibre Nash.

DeepNash combină algoritmul de întărire-învățare și o rețea neuronală profundă pentru a găsi un echilibru Nash. 

În general, învățarea prin consolidare este locul în care un agent inteligent (program de computer) interacționează cu mediul și învață cea mai bună politică pentru a dicta acțiunea pentru fiecare stare a unui joc. 

Pentru a avea o politică optimă, DeepNash a jucat un total de 5.5 miliarde de jocuri împotriva sa. 

În esență, dacă o parte este penalizată, cealaltă este recompensată, iar variabilele rețelei neuronale - care reprezintă politica - sunt modificate în consecință.

AI învinge oamenii în Stratego – Faceți cunoștință cu DeepMash

AI învinge oamenii în Stratego – Faceți cunoștință cu DeepMash

La un moment dat, DeepNash converge spre un echilibru Nash aproximativ. Spre deosebire de alți Boți, DeepNash se optimizează singur fără scercetând prin arborele jocului.

Timp de două săptămâni, DeepNash a jucat împotriva jucătorilor umani Stratego pe platforma de jocuri online, Gravon.

După ce a concurat în 50 de meciuri, Ai s-a clasat pe locul al treilea printre toți jucătorii Gravon Stratego din 2002. 

„Munca noastră arată că un joc atât de complex precum Stratego, care implică informații imperfecte, nu necesită tehnici de căutare pentru a-l rezolva”, spune membrul echipei Karl Tuyls, un cercetător DeepMind cu sediul la Paris. „Acesta este un mare pas înainte în AI.”

Alți cercetători sunt și ei impresionați de această ispravă.

Rezultate impresionante

„Rezultatele sunt impresionante”, este de acord Noam Brown, cercetător la Meta AI, cu sediul în New York City, și membru al echipei care în 2019 a raportat AI Pluribus4 pentru jocul de poker.

La Meta, compania-mamă a Facebook, Brown și colegii ei au construit un AI care poate juca Diplomacy, un joc în care șapte jucători concurează pentru controlul geografic al Europei mutând piesele pe o hartă.

În Diplomație, scopul este de a prelua controlul centrelor de aprovizionare prin mutarea unităților (flote și armate). 

Meta spune că Cicero este destul de important, deoarece AI se bazează pe medii non-adversariale.

Spre deosebire de trecut, în care succesele majore anterioare pentru IA multi-agenți au fost în medii pur adversare, cum ar fi șah, Go și Poker, unde comunicarea nu are valoare, Cicero folosește un motor de raționament strategic și un modul de dialog controlabil.

„Când treceți dincolo de jocurile cu sumă zero pentru doi jucători, ideea echilibrului Nash nu mai este atât de utilă pentru a juca bine cu oamenii”, spune Brown.

Brown și echipa ei l-au antrenat pe Cicero folosind date din 125,261 de jocuri ale unei versiuni online a Diplomacy care implică jucători umani. 

Folosind date de auto-play și un modul de raționament strategic (SRM), Cicero a învățat să prezică judecata după starea jocului și mesajele acumulate, mișcările și politicile probabile ale celorlalți jucători. 

AI învinge oamenii în Stratego – Faceți cunoștință cu DeepMash

AI învinge oamenii în Stratego – Faceți cunoștință cu DeepMash

Meta spune că a colectat date din 125,261 de jocuri de Diplomacy jucate online pe webDiplomacy.net. Dintre aceste jocuri, un total de 40,408 jocuri conţineau dialog, cu un total de 12,901,662 de mesaje schimbate între jucători.

Comportamentul din lumea reală

Brown crede că boții de joc precum Cicero pot interacționa cu oamenii și pot explica „acțiunile umane suboptime sau chiar iraționale ar putea deschide calea pentru aplicații din lumea reală”.

„Dacă faci o mașină care se conduce singur, nu vrei să presupui că toți ceilalți șoferi de pe drum sunt perfect raționali și se vor comporta optim”, spune el.

Cicero, adaugă el, este un mare pas în această direcție. „Avem încă un picior în lumea jocului, dar acum avem un picior și în lumea reală.”

Alții, precum Wellman, sunt de acord, dar insistă că mai trebuie de făcut. „Multe dintre aceste tehnici sunt într-adevăr relevante dincolo de jocurile recreative” pentru aplicațiile din lumea reală, spune el. „Cu toate acestea, la un moment dat, principalele laboratoare de cercetare AI trebuie să treacă dincolo de mediile recreative și să descopere cum să măsoare progresul științific în „jocuri” din lumea reală, care ne interesează de fapt.”

/MetaNews.

Timestamp-ul:

Mai mult de la MetaNews