Miks kõik armastavad ChatGPT vestlusbotti?

Allikasõlm: 1771427

Veel üks mäng, mida on pikka aega peetud tehisintellekti jaoks väga raskeks võitmiseks, on langenud robotite kätte: Stratego.

DeepNash, Londonis asuva ettevõtte loodud tehisintellekt Deepmind, sobib nüüd asjatundlike inimestega Stratego lauamängus, mis nõuab pikaajalist strateegilist mõtlemist ebatäiusliku teabe vastu.

See viimane saavutus tuleb pärast järjekordset suurt võitu tehisintellektidele mängudes, mida varem peeti inimeste tugevaimaks küljeks.

Just eelmisel nädalal ilmus Meta Cicero, tehisintellekt, mis suudab inimmängijaid üle kavaldada mängus Diplomaatia, tegi ajalugu vastaste üle kavaldamisega võrgus.

"Tehtimistehnoloogia on viimastel aastatel kvalitatiivselt erinevaid mängufunktsioone vallutanud või uuele tasemele jõudnud, on üsna märkimisväärne," ütleb strateegilisi arutluskäike ja mänge uuriv arvutiteadlane Michael Wellman Michigani ülikoolist Ann Arboris. teooria.

"Stratego ja Diplomacy on üksteisest üsna erinevad ning neil on ka väljakutseid pakkuvad funktsioonid, mis erinevad märkimisväärselt nendest mängudest, mille puhul on saavutatud analoogsed verstapostid," ütles Wellman.

Ebatäiuslik teave

Mängul on omadused, mis on üldiselt palju keerulisemad kui male, Go või pokker. Male, Go ja pokker on kõik AI-d õppinud.

Stratego mängus panevad kaks mängijat lauale 40 nuppu, kuid ei tohi näha, millised on vastase nupud.

Mängu eesmärk on liigutada nuppe kordamööda, et kõrvaldada vastase nupud ja lüüa lipp. 

Stratego mängupuul – graafikul kõigist võimalikest mänguviisidest – on 10535 olekut ja Go oma 10360. 

Kui rääkida ebatäiuslikust teabest mängu alguses, siis Strategol on 1066 võimalikku privaatset positsiooni, mis jääb kahe mängijaga Texas hold'em pokkeris alla vaid 106 sellise algolukorra puhul.

"Stratego võimalike tulemuste arvu keerukus tähendab, et algoritmid, mis toimivad hästi täiuslikes teabemängudes, ja isegi need, mis töötavad pokkeri jaoks, ei tööta," ütleb Julien Perolat, DeepMindi uurija Pariisis.

DeepNashi töötasid välja Perolat ja tema kolleegid.

Nashist inspireeritud bot

Boti nimi on austusavaldus kuulsale USA matemaatikule John Nashile, kes tuli välja Nashi tasakaalu teooriaga, mis eeldab, et on olemas "stabiilne strateegiate kogum", mida mängijad saavad järgida viisil, millest ükski mängija strateegia muutmisest kasu ei saa. omapead. Seetõttu on mängudel tavaliselt null, üks või mitu Nashi tasakaalu.

DeepNash ühendab Nashi tasakaalu leidmiseks tugevdamise õppimisalgoritmi ja sügava närvivõrgu. 

Üldiselt on tugevdav õpe koht, kus intelligentne agent (arvutiprogramm) suhtleb keskkonnaga ja õpib parima poliitika dikteerima tegevust igas mänguseisundis. 

Optimaalse poliitika saavutamiseks mängis DeepNash enda vastu kokku 5.5 miljardit mängu. 

Sisuliselt, kui ühte poolt karistatakse, premeeritakse teist ja närvivõrgu muutujaid, mis esindavad poliitikat, kohandatakse vastavalt.

AI võidab Strategos inimesi – tutvuge DeepMashiga

AI võidab Strategos inimesi – tutvuge DeepMashiga

Mingil etapil läheneb DeepNash ligikaudsele Nashi tasakaalule. Erinevalt teistest robotitest optimeerib DeepNash ennast ilma s-itaulukipuust läbi kuulates.

Kaks nädalat mängis DeepNash võrgumängude platvormil Gravon Stratego inimmängijate vastu.

Pärast 50 matši võistelmist oli Ai kõigi Gravon Stratego mängijate seas alates 2002. aastast kolmandal kohal. 

"Meie töö näitab, et nii keeruline mäng nagu Stratego, mis sisaldab ebatäiuslikku teavet, ei vaja selle lahendamiseks otsingutehnikaid," ütleb meeskonnaliige Karl Tuyls, DeepMindi teadlane Pariisis. "See on AI-s tõesti suur samm edasi."

See saavutus avaldab muljet ka teistele teadlastele.

Muljetavaldavad tulemused

"Tulemused on muljetavaldavad," nõustub Noam Brown, New Yorgis peakorteriga Meta AI teadur ja 2019. aastal pokkerit mängivast AI Pluribus4-st teatanud meeskonna liige.

Facebooki emaettevõttes Metas ehitasid Brown ja tema kolleegid tehisintellekti, mis suudab mängida Diplomaatiat – mängu, kus seitse mängijat võistlevad Euroopa geograafilise kontrolli eest, liigutades kaardil tükke.

Diplomaatias on eesmärgiks võtta varustuskeskuste üle kontroll üksuste (laevastikud ja armeed) liigutamisega. 

Meta ütleb, et Cicero on üsna märkimisväärne, kuna tehisintellekt tugineb mittekonkureerivatele keskkondadele.

Erinevalt minevikust, kus mitme agentuuriga tehisintellekti varasemad suured edusammud on olnud puhtalt vastandlikes keskkondades, nagu male, go ja pokker, kus suhtlusel pole väärtust, kasutab Cicero strateegilist arutlusmootorit ja juhitavat dialoogimoodulit.

"Kui lähete kahe mängijaga nullsumma mängudest kaugemale, pole Nashi tasakaalu idee inimestega hästi mängimiseks enam kasulik," ütleb Brown.

Brown ja tema meeskond koolitasid Cicerot, kasutades 125,261 XNUMX inimmängijaid hõlmava Diplomaatia võrguversiooni mängu andmeid. 

Kasutades isemängimise andmeid ja strateegilist arutlusmoodulit (SRM), õppis Cicero ennustama mängu oleku ja kogunenud sõnumite, teiste mängijate tõenäoliste liigutuste ja poliitika põhjal. 

AI võidab Strategos inimesi – tutvuge DeepMashiga

AI võidab Strategos inimesi – tutvuge DeepMashiga

Meta ütleb, et kogus andmeid 125,261 40,408 Diplomacy mängu kohta, mida mängiti veebis saidil webDiplomacy.net. Nendest mängudest sisaldas dialoogi kokku 12,901,662 XNUMX mängus ning mängijate vahel vahetati kokku XNUMX XNUMX XNUMX sõnumit.

Pärismaailma käitumine

Brown usub, et mängurobotid, nagu Cicero, võivad inimestega suhelda ja võtta arvesse "alaoptimaalseid või isegi irratsionaalseid inimtegevusi, mis võivad sillutada teed reaalsetele rakendustele".

"Kui teete isejuhtivat autot, ei taha te eeldada, et kõik teised teel sõitvad juhid on täiesti ratsionaalsed ja käituvad optimaalselt," ütleb ta.

Ta lisab, et Cicero on suur samm selles suunas. "Meil on endiselt üks jalg mängumaailmas, kuid nüüd on meil üks jalg ka reaalses maailmas."

Teised, nagu Wellman, nõustuvad, kuid nõuavad, et veel tööd tuleb teha. "Paljud neist tehnikatest on reaalsete rakenduste jaoks tõepoolest olulised ka väljaspool meelelahutusmänge," ütleb ta. "Sellegipoolest peavad juhtivad tehisintellekti uurimislaborid mingil hetkel jõudma meelelahutusasutustest kaugemale ja välja mõtlema, kuidas mõõta teaduse edusamme meie jaoks tegelikult hoolivates reaalsetes mängudes."

/MetaNews.

Ajatempel:

Veel alates MetaNews