Waarom iedereen dol is op de ChatGPT-chatbot

Bronknooppunt: 1771427

Een ander spel waarvan lang werd aangenomen dat het een grote uitdaging was voor kunstmatige intelligentie (AI) om te overwinnen, is gevallen op bots: Stratego.

DeepNash, een AI gemaakt door een in Londen gevestigd bedrijf DeepMind, komt nu overeen met deskundige mensen bij Stratego, een bordspel dat strategisch denken op de lange termijn vereist tegen onvolmaakte informatie.

Deze nieuwste prestatie komt in de nasleep van alweer een grote overwinning voor de AI's in games waarvan eerder werd gedacht dat ze de sterkste kant van de mens waren.

Vorige week nog, Meta's Cicero, een AI die kan menselijke spelers te slim af zijn bij het spel Diplomacy geschiedenis geschreven door online tegenstanders te slim af te zijn.

"De snelheid waarmee kwalitatief verschillende gamefuncties de afgelopen jaren door AI zijn veroverd - of tot nieuwe niveaus zijn beheerst - is behoorlijk opmerkelijk", zegt Michael Wellman van de University of Michigan in Ann Arbor, een computerwetenschapper die strategisch redeneren en gamen bestudeert. theorie.

"Stratego en Diplomacy verschillen behoorlijk van elkaar en hebben ook uitdagende functies die aanzienlijk verschillen van games waarvoor analoge mijlpalen zijn bereikt", aldus Wellman.

Onvolmaakte informatie

Het spel heeft kenmerken die over het algemeen veel ingewikkelder zijn dan schaken, Go of poker. Schaken, Go en Poker zijn allemaal beheerst door AI's.

In het spel Stratego leggen twee spelers elk 40 stukken op een bord, maar mogen ze niet zien wat de stukken van hun tegenstander zijn.

Het doel van het spel is om beurtelings stukken te verplaatsen om die van de tegenstander uit te schakelen en een vlag te veroveren. 

De spelboom van Stratego - een grafiek van alle mogelijke manieren waarop het spel mogelijk zou kunnen gaan - heeft 10535 staten tegen Go's 10360. 

Als het gaat om onvolmaakte informatie aan het begin van een spel, heeft Stratego 1066 mogelijke privéposities, een cijfer dat slechts 106 van dergelijke beginsituaties in Texas hold'em-poker voor twee spelers overschaduwt.

"De enorme complexiteit van het aantal mogelijke uitkomsten in Stratego betekent dat algoritmen die goed presteren in spellen met perfecte informatie, en zelfs degenen die werken voor poker, niet werken", zegt Julien Perolat, een DeepMind-onderzoeker in Parijs.

DeepNash is ontwikkeld door Perolat en zijn collega's.

Nash-geïnspireerde bot

De naam van de bot is een eerbetoon aan de beroemde Amerikaanse wiskundige John Nash, die de Nash-evenwichtstheorie bedacht die veronderstelt dat er een "stabiele reeks strategieën" is die door spelers kunnen worden gevolgd op een manier waarbij geen enkele speler baat heeft bij het veranderen van strategie. zelfstandig. Als zodanig hebben games meestal nul, één of veel Nash-evenwichten.

DeepNash combineert een algoritme voor het leren van versterking en een diep neuraal netwerk om een ​​Nash-evenwicht te vinden. 

Over het algemeen is versterkend leren een situatie waarin een intelligente agent (computerprogramma) interactie heeft met de omgeving en het beste beleid leert om actie te dicteren voor elke status van een spel. 

Om een ​​optimaal beleid te voeren, speelde DeepNash in totaal 5.5 miljard games tegen zichzelf. 

In wezen geldt dat als de ene partij wordt gestraft, de andere wordt beloond en de variabelen van het neurale netwerk - die het beleid vertegenwoordigen - dienovereenkomstig worden aangepast.

AI verslaat mensen in Stratego – Maak kennis met DeepMash

AI verslaat mensen in Stratego – Maak kennis met DeepMash

Op een bepaald moment convergeert DeepNash naar een benaderend Nash-evenwicht. In tegenstelling tot andere bots optimaliseert DeepNash zichzelf zonder szoeken door de spelboom.

Twee weken lang speelde DeepNash tegen menselijke Stratego-spelers op online gamesplatform Gravon.

Na 50 wedstrijden te hebben gespeeld, stond de Ai sinds 2002 op de derde plaats van alle Gravon Stratego-spelers. 

"Ons werk laat zien dat zo'n complex spel als Stratego, met imperfecte informatie, geen zoektechnieken nodig heeft om het op te lossen", zegt teamlid Karl Tuyls, een DeepMind-onderzoeker in Parijs. "Dit is echt een grote stap voorwaarts in AI."

Ook andere onderzoekers zijn onder de indruk van deze prestatie.

Indrukwekkende resultaten

"De resultaten zijn indrukwekkend", beaamt Noam Brown, een onderzoeker bij Meta AI, met hoofdkantoor in New York City, en een lid van het team dat in 2019 de pokerspelende AI Pluribus4 rapporteerde.

Bij Meta, het moederbedrijf van Facebook, bouwden Brown en haar collega's een AI die Diplomacy kan spelen, een spel waarin zeven spelers strijden om geografische controle over Europa door stukken op een kaart te verplaatsen.

In Diplomacy is het doel om de controle over bevoorradingscentra over te nemen door eenheden (vloten en legers) te verplaatsen. 

Meta zegt dat Cicero behoorlijk belangrijk is omdat de AI afhankelijk is van niet-vijandige omgevingen.

In tegenstelling tot eerdere grote successen voor multi-agent AI in puur vijandige omgevingen, zoals Chess, Go en Poker, waar communicatie geen waarde heeft, gebruikt Cicero een engine voor strategisch redeneren en een bestuurbare dialoogmodule.

"Als je verder gaat dan nulsomspellen voor twee spelers, is het idee van Nash-evenwicht niet langer zo nuttig om goed met mensen te spelen", zegt Brown.

Brown en haar team trainden Cicero met behulp van gegevens van 125,261 games van een online versie van Diplomacy met menselijke spelers. 

Met behulp van zelfspelgegevens en een module voor strategisch redeneren (SRM) leerde Cicero om te voorspellen op basis van de stand van het spel en de verzamelde berichten, de waarschijnlijke zetten en het beleid van de andere spelers. 

AI verslaat mensen in Stratego – Maak kennis met DeepMash

AI verslaat mensen in Stratego – Maak kennis met DeepMash

Meta zegt dat het gegevens heeft verzameld van 125,261 spellen van Diplomacy die online zijn gespeeld op webDiplomacy.net. Van deze spellen bevatten in totaal 40,408 spellen dialoog, met in totaal 12,901,662 berichten die tussen spelers werden uitgewisseld.

Gedrag uit de echte wereld

Brown gelooft dat game-playing Bots zoals Cicero kunnen communiceren met mensen en verantwoordelijk kunnen zijn voor "suboptimale of zelfs irrationele menselijke acties die de weg kunnen effenen voor toepassingen in de echte wereld."

"Als je een zelfrijdende auto maakt, wil je er niet van uitgaan dat alle andere bestuurders op de weg volkomen rationeel zijn en zich optimaal gaan gedragen", zegt hij.

Cicero, voegt hij eraan toe, is een grote stap in deze richting. "We staan ​​nog steeds met één been in de gamewereld, maar nu staan ​​we ook met één been in de echte wereld."

Anderen, zoals Wellman, zijn het daarmee eens, maar houden vol dat er nog meer werk moet worden verzet. "Veel van deze technieken zijn inderdaad relevant buiten recreatieve games" voor toepassingen in de echte wereld, zegt hij. "Desalniettemin moeten de leidende AI-onderzoekslaboratoria op een gegeven moment verder gaan dan recreatieve omgevingen en uitzoeken hoe we wetenschappelijke vooruitgang kunnen meten op de squishier real-world 'games' waar we echt om geven."

/MetaNieuws.

Tijdstempel:

Meer van MetaNieuws