Hvorfor alle elsker ChatGPT Chatbot

Kildeknude: 1771427

Et andet spil, der længe menes at være meget udfordrende for kunstig intelligens (AI) at erobre, er faldet til bots: Stratego.

DeepNash, en kunstig intelligens lavet af London-baseret virksomhed DeepMind, matcher nu ekspertmennesker hos Stratego, et brætspil, der kræver langsigtet strategisk tænkning mod ufuldkommen information.

Denne seneste bedrift kommer i kølvandet på endnu en stor sejr for AI'erne i spil, der tidligere blev anset for at være menneskers styrke.

Bare i sidste uge, Meta's Cicero, en AI, der kan overliste menneskelige spillere i spillet Diplomacy, skrev historie for at overliste modstandere online.

"Den hastighed, hvormed kvalitativt forskellige spilfunktioner er blevet erobret - eller mestret til nye niveauer - af AI i de seneste år, er ret bemærkelsesværdig," siger Michael Wellman ved University of Michigan i Ann Arbor, en computerforsker, der studerer strategisk ræsonnement og spil teori.

"Stratego og Diplomacy er ret forskellige fra hinanden, og har også udfordrende funktioner, der er særligt forskellige fra spil, hvor tilsvarende milepæle er nået," sagde Wellman.

Ufuldkommen information

Spillet har karakteristika, der generelt er meget mere komplicerede end skak, Go eller poker. Skak, Go og Poker er alle blevet mestret af AI'er.

I spillet Stratego lægger to spillere 40 brikker hver på et bræt, men må ikke se, hvad deres modstanders brikker er.

Målet med spillet er at flytte brikker på skift for at eliminere modstanderens og erobre et flag. 

Strategos spiltræ - en graf over alle mulige måder, spillet kunne gå - har 10535 tilstande mod Go's 10360. 

Når det kommer til ufuldkommen information i begyndelsen af ​​et spil, har Stratego 1066 mulige private positioner, et tal, der kun overskygger 106 sådanne startsituationer i to-spiller Texas hold'em poker.

"Den store kompleksitet af antallet af mulige udfald i Stratego betyder algoritmer, der fungerer godt på spil med perfekt information, og selv dem, der fungerer til poker, virker ikke," siger Julien Perolat, en DeepMind-forsker baseret i Paris.

DeepNash er udviklet af Perolat og hans kolleger.

Nash inspireret bot

Botens navn er en hyldest til den berømte amerikanske matematiker John Nash, som kom op med Nash-ligevægtsteorien, der antager, at der er et "stabilt sæt strategier", som kan følges af spillere på en måde, som ingen spiller drager fordel af ved at ændre strategi. på egen hånd. Som sådan har spil en tendens til at have nul, en eller mange Nash-ligevægte.

DeepNash kombinerer forstærkningsindlæringsalgoritme og et dybt neuralt netværk for at finde en Nash-ligevægt. 

Generelt er forstærkningslæring, hvor en intelligent agent (computerprogram) interagerer med miljøet og lærer den bedste politik til at diktere handling for hver tilstand af et spil. 

For at have en optimal politik spillede DeepNash i alt 5.5 milliarder spil mod sig selv. 

I det væsentlige, hvis den ene side bliver straffet, bliver den anden belønnet, og variablerne i det neurale netværk - som repræsenterer politikken - justeres i overensstemmelse hermed.

AI slår mennesker i Stratego – Mød DeepMash

AI slår mennesker i Stratego – Mød DeepMash

På et tidspunkt konvergerer DeepNash til en omtrentlig Nash-ligevægt. I modsætning til andre bots optimerer DeepNash sig selv uden ssøge gennem spiltræet.

I en varighed på to uger spillede DeepNash mod menneskelige Stratego-spillere på onlinespilplatformen Gravon.

Efter at have konkurreret i 50 kampe, var Ai rangeret som tredje blandt alle Gravon Stratego-spillere siden 2002. 

"Vores arbejde viser, at et så komplekst spil som Stratego, der involverer ufuldkommen information, ikke kræver søgeteknikker for at løse det," siger teammedlem Karl Tuyls, en DeepMind-forsker baseret i Paris. "Dette er et virkelig stort skridt fremad inden for AI."

Andre forskere er også imponerede over denne bedrift.

Imponerende resultater

"Resultaterne er imponerende," siger Noam Brown, en forsker ved Meta AI, med hovedkontor i New York City, og et medlem af holdet, der i 2019 rapporterede om den pokerspillende AI Pluribus4.

Hos Meta, moderselskabet til Facebook, byggede Brown og hendes kolleger en AI, der kan spille Diplomacy, et spil hvor syv spillere konkurrerer om geografisk kontrol over Europa ved at flytte brikker rundt på et kort.

I Diplomacy er målet at tage kontrol over forsyningscentre ved at flytte enheder (flåder og hære). 

Meta siger, at Cicero er ret betydningsfuld, fordi AI er afhængig af ikke-adversarielle miljøer.

I modsætning til tidligere, hvor tidligere store succeser for multi-agent AI har været i rent modstridende miljøer, såsom skak, Go og Poker, hvor kommunikation ikke har nogen værdi, anvender Cicero en strategisk ræsonnementmotor og kontrollerbart dialogmodul.

"Når du går ud over nulsumsspil med to spillere, er ideen om Nash-ligevægt ikke længere så nyttig til at spille godt med mennesker," siger Brown.

Brown og hendes hold trænede Cicero ved hjælp af data fra 125,261 spil af en onlineversion af Diplomacy, der involverer menneskelige spillere. 

Ved at bruge selvspilsdata og et strategisk ræsonnement-modul (SRM) lærte Cicero at forudsige at dømme ud fra spillets tilstand og de akkumulerede beskeder, de andre spilleres sandsynlige bevægelser og politikker. 

AI slår mennesker i Stratego – Mød DeepMash

AI slår mennesker i Stratego – Mød DeepMash

Meta siger, at det har indsamlet data fra 125,261 spil af Diplomacy spillet online på webDiplomacy.net. Af disse spil indeholdt i alt 40,408 spil dialog, med i alt 12,901,662 beskeder udvekslet mellem spillere.

Virkelig adfærd

Brown mener, at spil-bots som Cicero kan interagere med mennesker og stå for "suboptimale eller endda irrationelle menneskelige handlinger kan bane vejen for applikationer i den virkelige verden."

"Hvis du laver en selvkørende bil, vil du ikke gå ud fra, at alle de andre bilister på vejen er helt rationelle og kommer til at opføre sig optimalt," siger han.

Cicero, tilføjer han, er et stort skridt i denne retning. "Vi har stadig en fod i spilverdenen, men nu har vi også en fod i den virkelige verden."

Andre såsom Wellman er enige, men insisterer på, at der stadig skal gøres mere arbejde. "Mange af disse teknikker er faktisk relevante ud over rekreative spil" for applikationer i den virkelige verden, siger han. "Ikke desto mindre skal de førende AI-forskningslaboratorier på et tidspunkt komme ud over rekreative omgivelser og finde ud af, hvordan man kan måle videnskabelige fremskridt på de squishier 'spil' i den virkelige verden, som vi rent faktisk holder af."

/MetaNews.

Tidsstempel:

Mere fra MetaNews