Varför alla älskar ChatGPT Chatbot

Källnod: 1771427

Ett annat spel som länge ansetts vara mycket utmanande för artificiell intelligens (AI) att erövra har fallit till bots: Stratego.

DeepNash, en AI tillverkad av London-baserat företag Deepmind, matchar nu expertmänniskor på Stratego, ett brädspel som kräver långsiktigt strategiskt tänkande mot ofullkomlig information.

Den här senaste bedriften kommer i kölvattnet av ännu en stor vinst för AI:erna i spel som tidigare ansågs vara människors styrka.

Bara förra veckan, Metas Cicero, en AI som kan överlista mänskliga spelare vid spelet Diplomacy, skrev historia för att överlista motståndare online.

"Hastigheten med vilken kvalitativt olika spelfunktioner har erövrats - eller bemästrats till nya nivåer - av AI de senaste åren är ganska anmärkningsvärt", säger Michael Wellman vid University of Michigan i Ann Arbor, en datavetare som studerar strategiska resonemang och spel teori.

"Stratego och Diplomacy skiljer sig ganska mycket från varandra och har också utmanande funktioner som skiljer sig särskilt från spel för vilka liknande milstolpar har nåtts," sa Wellman.

Ofullkomlig information

Spelet har egenskaper som i allmänhet är mycket mer komplicerade än schack, Go eller poker. Schack, Go och Poker har alla bemästrats av AI:er.

I spelet Stratego lägger två spelare 40 pjäser vardera på ett bräde, men får inte se vad motståndarens pjäser är.

Målet med spelet är att flytta pjäser i tur och ordning för att eliminera motståndarens och fånga en flagga. 

Strategos spelträd – en graf över alla möjliga vägar som spelet kan gå – har 10535 tillstånd mot Gos 10360. 

När det kommer till ofullkomlig information i början av ett spel, har Stratego 1066 möjliga privata positioner, en siffra som endast överskrider 106 sådana startsituationer i Texas hold'em-poker för två spelare.

"Den stora komplexiteten i antalet möjliga utfall i Stratego betyder att algoritmer som fungerar bra på spel med perfekt information, och även de som fungerar för poker inte fungerar", säger Julien Perolat, en DeepMind-forskare baserad i Paris.

DeepNash utvecklades av Perolat och hans kollegor.

Nash inspirerad bot

Botens namn är en hyllning till den berömda amerikanske matematikern John Nash, som kom med Nashs jämviktsteorin som förutsätter att det finns en "stabil uppsättning strategier" som kan följas av spelare på ett sätt som ingen spelare gynnas av genom att byta strategi själva. Som sådana tenderar spel att ha noll, en eller många Nash-jämvikter.

DeepNash kombinerar förstärkningsinlärningsalgoritm och ett djupt neuralt nätverk för att hitta en Nash-jämvikt. 

Generellt sett är förstärkningsinlärning där en intelligent agent (datorprogram) interagerar med omgivningen och lär sig den bästa policyn för att diktera åtgärder för varje tillstånd i ett spel. 

För att ha en optimal policy spelade DeepNash totalt 5.5 miljarder spel mot sig själv. 

I huvudsak, om en sida blir straffad, belönas den andra, och variablerna i det neurala nätverket - som representerar policyn - justeras i enlighet med detta.

AI slår människor i Stratego – Möt DeepMash

AI slår människor i Stratego – Möt DeepMash

I något skede konvergerar DeepNash till en ungefärlig Nash-jämvikt. Till skillnad från andra bots optimerar DeepNash sig själv utan sleta genom spelträdet.

Under två veckor spelade DeepNash mot mänskliga Stratego-spelare på onlinespelplattformen Gravon.

Efter att ha tävlat i 50 matcher rankades Ai på tredje plats bland alla Gravon Stratego-spelare sedan 2002. 

"Vårt arbete visar att ett så komplext spel som Stratego, som involverar ofullständig information, inte kräver söktekniker för att lösa det", säger teammedlemmen Karl Tuyls, en DeepMind-forskare baserad i Paris. "Det här är ett riktigt stort steg framåt inom AI."

Andra forskare är också imponerade av denna bedrift.

Imponerande resultat

"Resultaten är imponerande", instämmer Noam Brown, en forskare vid Meta AI, med huvudkontor i New York City, och en medlem i teamet som 2019 rapporterade om den pokerspelande AI Pluribus4.

Hos Meta, moderbolaget till Facebook, byggde Brown och hennes kollegor en AI som kan spela Diplomacy, ett spel där sju spelare tävlar om geografisk kontroll över Europa genom att flytta runt pjäser på en karta.

I Diplomacy är målet att ta kontroll över försörjningscentra genom att flytta enheter (flottor och arméer). 

Meta säger att Cicero är ganska betydelsefull eftersom AI förlitar sig på icke-motstridiga miljöer.

Till skillnad från tidigare, där tidigare stora framgångar för multiagent AI har varit i rent kontradiktoriska miljöer, som schack, Go och Poker, där kommunikation inte har något värde, använder Cicero en strategisk resonemangsmotor och kontrollerbar dialogmodul.

"När du går bortom nollsummespel för två spelare är idén om Nash-jämvikt inte längre så användbar för att spela bra med människor", säger Brown.

Brown och hennes team tränade Cicero med hjälp av data från 125,261 XNUMX spel av en onlineversion av Diplomacy som involverade mänskliga spelare. 

Genom att använda självspelsdata och en strategisk resonemangsmodul (SRM) lärde sig Cicero att förutsäga att döma utifrån spelets tillstånd och de ackumulerade meddelandena, de sannolika rörelserna och de andra spelarnas policy. 

AI slår människor i Stratego – Möt DeepMash

AI slår människor i Stratego – Möt DeepMash

Meta säger att de har samlat in data från 125,261 40,408 spel av Diplomacy spelade online på webDiplomacy.net. Av dessa spel innehöll totalt 12,901,662 XNUMX spel dialog, med totalt XNUMX XNUMX XNUMX meddelanden utbytta mellan spelare.

Verkliga beteenden

Brown tror att spelrobotar som Cicero kan interagera med människor och stå för "suboptimala eller till och med irrationella mänskliga handlingar kan bana väg för verkliga tillämpningar."

"Om du gör en självkörande bil vill du inte anta att alla andra förare på vägen är helt rationella och kommer att bete sig optimalt", säger han.

Cicero, tillägger han, är ett stort steg i den här riktningen. "Vi har fortfarande en fot i spelvärlden, men nu har vi en fot i den verkliga världen också."

Andra som Wellman håller med, men insisterar på att mer arbete fortfarande måste göras. "Många av dessa tekniker är verkligen relevanta bortom rekreationsspel" för verkliga tillämpningar, säger han. "Icke desto mindre, någon gång måste de ledande AI-forskningslabben ta sig bortom rekreationsmiljöer och ta reda på hur man mäter vetenskapliga framsteg på de squishier verkliga "spelen" som vi faktiskt bryr oss om."

/MetaNews.

Tidsstämpel:

Mer från MetaNews