Hvorfor alle elsker ChatGPT Chatbot

Kilde node: 1771427

Et annet spill som lenge antas å være svært utfordrende for kunstig intelligens (AI) å erobre har falt til roboter: Stratego.

DeepNash, en kunstig intelligens laget av et London-basert selskap DeepMind, matcher nå ekspertmennesker på Stratego, et brettspill som krever langsiktig strategisk tenkning mot ufullkommen informasjon.

Denne siste bragden kommer i kjølvannet av nok en stor seier for AI-ene i spill som tidligere ble antatt å være menneskers styrke.

Bare forrige uke, Metas Cicero, en AI som kan overliste menneskelige spillere i spillet Diplomacy, skapte historie for å overliste motstandere på nettet.

"Hastigheten som kvalitativt forskjellige spillfunksjoner har blitt erobret - eller mestret til nye nivåer - av AI de siste årene er ganske bemerkelsesverdig," sier Michael Wellman ved University of Michigan i Ann Arbor, en dataforsker som studerer strategisk resonnement og spill teori.

"Stratego og Diplomacy er ganske forskjellige fra hverandre, og har også utfordrende funksjoner som er spesielt forskjellige fra spill som har nådd tilsvarende milepæler," sa Wellman.

Ufullkommen informasjon

Spillet har egenskaper som generelt er mye mer kompliserte enn sjakk, Go eller poker. Sjakk, Go og Poker har alle blitt mestret av AI-er.

I spillet Stratego legger to spillere 40 brikker hver på et brett, men må ikke se hva motstanderens brikker er.

Målet med spillet er å flytte brikker etter tur for å eliminere motstanderens og fange et flagg. 

Strategos spilltre – en graf over alle mulige måter spillet kan gå – har 10535 stater mot Gos 10360. 

Når det kommer til ufullkommen informasjon i begynnelsen av et spill, har Stratego 1066 mulige private posisjoner, en figur som overskygger bare 106 slike startsituasjoner i to-spiller Texas hold'em poker.

"Den store kompleksiteten i antall mulige utfall i Stratego betyr at algoritmer som gir gode resultater i spill med perfekt informasjon, og til og med de som fungerer for poker, ikke fungerer," sier Julien Perolat, en DeepMind-forsker basert i Paris.

DeepNash ble utviklet av Perolat og hans kolleger.

Nash-inspirert bot

Botens navn er en hyllest til den berømte amerikanske matematikeren John Nash, som kom opp med Nash-likevektsteorien som antar at det er et "stabilt sett med strategier" som kan følges av spillere på en måte som ingen spiller drar nytte av ved å endre strategi. på egen hånd. Som sådan har spill en tendens til å ha null, en eller mange Nash-likevekter.

DeepNash kombinerer forsterkningslæringsalgoritme og et dypt nevralt nettverk for å finne en Nash-likevekt. 

Generelt er forsterkende læring der en intelligent agent (dataprogram) samhandler med miljøet og lærer den beste policyen for å diktere handling for hver tilstand av et spill. 

For å ha en optimal policy, spilte DeepNash totalt 5.5 milliarder spill mot seg selv. 

I hovedsak, hvis den ene siden blir straffet, blir den andre belønnet, og variablene i det nevrale nettverket - som representerer politikken - justeres deretter.

AI slår mennesker i Stratego – Møt DeepMash

AI slår mennesker i Stratego – Møt DeepMash

På et tidspunkt konvergerer DeepNash til en omtrentlig Nash-likevekt. I motsetning til andre bots, optimaliserer DeepNash seg selv uten sleting gjennom spilltreet.

I en varighet på to uker spilte DeepNash mot menneskelige Stratego-spillere på nettspillplattformen Gravon.

Etter å ha konkurrert i 50 kamper, ble Ai rangert som tredje blant alle Gravon Stratego-spillere siden 2002. 

"Vårt arbeid viser at et så komplekst spill som Stratego, som involverer ufullkommen informasjon, ikke krever søketeknikker for å løse det," sier teammedlem Karl Tuyls, en DeepMind-forsker basert i Paris. "Dette er et veldig stort skritt fremover innen AI."

Andre forskere er også imponert over denne bragden.

Imponerende resultater

"Resultatene er imponerende," sier Noam Brown, en forsker ved Meta AI, med hovedkontor i New York City, og et medlem av teamet som i 2019 rapporterte om den pokerspillende AI Pluribus4.

Hos Meta, morselskapet til Facebook, bygde Brown og hennes kolleger en AI som kan spille Diplomacy, et spill der syv spillere konkurrerer om geografisk kontroll over Europa ved å flytte brikker rundt på et kart.

I Diplomacy er målet å ta kontroll over forsyningssentre ved å flytte enheter (flåter og hærer). 

Meta sier at Cicero er ganske betydelig fordi AI er avhengig av ikke-motstridende miljøer.

I motsetning til tidligere, hvor tidligere store suksesser for multi-agent AI har vært i rent motstridende miljøer, som Chess, Go og Poker, hvor kommunikasjon ikke har noen verdi, bruker Cicero en strategisk resonneringsmotor og kontrollerbar dialogmodul.

"Når du går utover nullsum-spill for to spillere, er ideen om Nash-likevekt ikke lenger så nyttig for å spille godt med mennesker," sier Brown.

Brown og teamet hennes trente Cicero ved å bruke data fra 125,261 XNUMX spill av en nettversjon av Diplomacy som involverer menneskelige spillere. 

Ved å bruke selvspillingsdata og en strategisk resonneringsmodul (SRM), lærte Cicero å forutsi å bedømme etter tilstanden i spillet og de akkumulerte meldingene, de sannsynlige bevegelsene og retningslinjene til de andre spillerne. 

AI slår mennesker i Stratego – Møt DeepMash

AI slår mennesker i Stratego – Møt DeepMash

Meta sier at de har samlet inn data fra 125,261 40,408 spill med Diplomacy spilt online på webDiplomacy.net. Av disse spillene inneholdt totalt 12,901,662 XNUMX spill dialog, med totalt XNUMX XNUMX XNUMX meldinger utvekslet mellom spillere.

Virkelig oppførsel

Brown mener spillroboter som Cicero kan samhandle med mennesker og gjøre rede for "suboptimale eller til og med irrasjonelle menneskelige handlinger kan bane vei for virkelige applikasjoner."

"Hvis du lager en selvkjørende bil, vil du ikke anta at alle de andre sjåførene på veien er helt rasjonelle og kommer til å oppføre seg optimalt," sier han.

Cicero, legger han til, er et stort skritt i denne retningen. "Vi har fortsatt en fot i spillverdenen, men nå har vi en fot i den virkelige verden også."

Andre som Wellman er enige, men insisterer på at mer arbeid fortsatt må gjøres. "Mange av disse teknikkene er faktisk relevante utover rekreasjonsspill" for virkelige applikasjoner, sier han. "Ikke desto mindre, på et tidspunkt, må de ledende AI-forskningslaboratoriene komme utover rekreasjonsmiljøer og finne ut hvordan man kan måle vitenskapelig fremgang på de squishier virkelige "spillene" som vi faktisk bryr oss om."

/MetaNews.

Tidstempel:

Mer fra MetaNews