Miért mindenki szereti a ChatGPT Chatbotot?

Forrás csomópont: 1771427

Egy másik játék, amelyről régóta úgy gondolták, hogy nagy kihívást jelent a mesterséges intelligencia (AI) legyőzése, a botok kezébe került: a Stratego.

DeepNash, a londoni székhelyű cég által készített mesterséges intelligencia DeepMind, most a Stratego szakértőinek felel meg, egy társasjáték, amely hosszú távú stratégiai gondolkodást igényel a tökéletlen információk ellen.

Ez a legújabb bravúr a mesterséges intelligencia egy újabb jelentős győzelme nyomán a korábban az emberek erősségének tartott játékokban.

Csak a múlt héten, Meta's Cicero, egy mesterséges intelligencia, amely túlszárnyalhatja az emberi játékosokat a Diplomácia játékban történelmet írt az ellenfelek online túljárásával.

„Elég figyelemreméltó az a sebesség, amellyel minőségileg különböző játékfunkciókat hódított meg – vagy új szintre sajátította el az AI – az elmúlt években” – mondja Michael Wellman, az Ann Arbor-i Michigani Egyetem informatikusa, aki stratégiai érvelést és játékot tanulmányoz. elmélet.

"A Stratego és a Diplomacy nagyon különbözik egymástól, és kihívást jelentő funkciókkal is rendelkeznek, amelyek jelentősen eltérnek azoktól a játékoktól, amelyeknél hasonló mérföldköveket értek el" - mondta Wellman.

Tökéletlen információ

A játék jellemzői általában sokkal bonyolultabbak, mint a sakk, a go vagy a póker. A sakkot, a go-t és a pókert mind az MI-k sajátították el.

A Stratego játékban két játékos 40 darabot tesz egy táblára, de nem láthatja, mik az ellenfél bábui.

A játék célja az, hogy felváltva mozgasd az ellenfél darabjait, és elkapd a zászlót. 

A Stratego játékfája – a játék minden lehetséges útját ábrázoló grafikon – 10535 állapotot tartalmaz a Go 10360-hoz képest. 

Ha a játék elején tökéletlen információkról van szó, a Stratego 1066 lehetséges privát pozícióval rendelkezik, ez a szám csak 106 ilyen kezdőhelyzet mellett eltörpül a kétjátékos Texas hold'em pókerben.

„A Stratego lehetséges kimeneteleinek számának puszta összetettsége azt jelenti, hogy olyan algoritmusok, amelyek jól teljesítenek a tökéletes információs játékokon, és még azok sem, amelyek a pókerben működnek, nem működnek” – mondja Julien Perolat, a DeepMind párizsi kutatója.

A DeepNash-t Perolat és munkatársai fejlesztették ki.

Nash ihlette bot

A bot neve tisztelgés a híres amerikai matematikus, John Nash előtt, aki kidolgozta a Nash-egyensúlyi elméletet, amely azt feltételezi, hogy létezik egy „stabil stratégiák halmaza”, amelyet a játékosok követhetnek oly módon, hogy a stratégia megváltoztatása egyetlen játékosnak sem profitáljon. maguktól. Mint ilyen, a játékok általában nulla, egy vagy több Nash-egyensúlyt tartalmaznak.

A DeepNash a megerősítő-tanulási algoritmust és a mély neurális hálózatot egyesíti a Nash-egyensúly megtalálásához. 

Általában a megerősítő tanulás az, ahol egy intelligens ágens (számítógépes program) kölcsönhatásba lép a környezettel, és megtanulja a legjobb politikát, amellyel a játék minden állapotában cselekvést diktálhat. 

Az optimális politika érdekében a DeepNash összesen 5.5 milliárd meccset játszott maga ellen. 

Lényegében, ha az egyik oldalt megbüntetik, a másikat jutalmazzák, és ennek megfelelően módosítják a neurális hálózat változóit, amelyek a politikát képviselik.

Az AI legyőzi az embereket a Stratego-ban – Ismerje meg a DeepMash-t

Az AI legyőzi az embereket a Stratego-ban – Ismerje meg a DeepMash-t

Egy bizonyos szakaszban a DeepNash közelítő Nash-egyensúlyhoz konvergál. Más botokkal ellentétben a DeepNash s nélkül optimalizálja magáta vadfán keresztül fülelve.

Két hétig a DeepNash emberi Stratego játékosok ellen játszott a Gravon online játékplatformon.

50 mérkőzés után az Ai a harmadik helyen végzett a Gravon Stratego játékosai között 2002 óta. 

„Munkánk azt mutatja, hogy egy ilyen összetett játék, mint a Stratego, amely tökéletlen információkat tartalmaz, nem igényel keresési technikákat a megoldásához” – mondja Karl Tuyls, a DeepMind párizsi kutatója. "Ez egy igazán nagy előrelépés az AI-ban."

Más kutatókat is lenyűgözött ez a bravúr.

Lenyűgöző eredmények

„Az eredmények lenyűgözőek” – ért egyet Noam Brown, a New York-i székhelyű Meta AI kutatója, és annak a csapatnak a tagja, amely 2019-ben beszámolt a pókerező AI Pluribus4-ről.

A Metában, a Facebook anyavállalatánál Brown és kollégái egy olyan mesterséges intelligencia-t építettek, amely képes játszani a Diplomácia játékkal, ahol hét játékos verseng Európa földrajzi irányításáért, a darabokat a térképen mozgatva.

A diplomáciában a cél az, hogy az egységek (flották és hadseregek) mozgatásával átvegyék az irányítást az ellátó központok felett. 

Meta szerint a Cicero meglehetősen jelentős, mivel az AI nem ellenséges környezetekre támaszkodik.

Ellentétben a múlttal, amikor a többügynököt tartalmazó mesterséges intelligencia korábbi jelentős sikereit pusztán ellenséges környezetekben érte el, mint például a sakkban, a goban és a pókerben, ahol a kommunikációnak nincs értéke, a Cicero stratégiai érvelési motort és vezérelhető párbeszédmodult alkalmaz.

„Ha túllépünk a kétfős, nulla összegű játékokon, a Nash-egyensúly gondolata már nem olyan hasznos, ha jól játszunk az emberekkel” – mondja Brown.

Brown és csapata a Diplomácia emberi játékosokat magában foglaló online változatának 125,261 XNUMX játékából származó adatok alapján képezte ki Cicerót. 

A saját játékadatok és a stratégiai érvelési modul (SRM) segítségével Cicero megtanulta megjósolni a játék állapota és a felhalmozott üzenetek, a többi játékos valószínű lépései és szabályai alapján. 

Az AI legyőzi az embereket a Stratego-ban – Ismerje meg a DeepMash-t

Az AI legyőzi az embereket a Stratego-ban – Ismerje meg a DeepMash-t

A Meta azt állítja, hogy 125,261 40,408 Diplomacy játékról gyűjtött adatokat, amelyeket online játszottak a webDiplomacy.net oldalon. Ezek közül a játékok közül összesen 12,901,662 XNUMX játék tartalmazott párbeszédet, és összesen XNUMX XNUMX XNUMX üzenetet váltottak a játékosok.

Valós viselkedés

Brown úgy véli, hogy az olyan játékbotok, mint a Cicero, képesek kölcsönhatásba lépni az emberekkel, és „a szuboptimális vagy akár irracionális emberi cselekedetekkel kikövezhetik az utat a valós alkalmazások előtt”.

„Ha önvezető autót készít, nem akarja azt feltételezni, hogy az úton lévő többi vezető tökéletesen racionális, és optimálisan fog viselkedni” – mondja.

Hozzáteszi, Cicero nagy lépés ebbe az irányba. "Még mindig a játékvilágban vagyunk, de most már a való világban is."

Mások, például Wellman, egyetértenek, de ragaszkodnak ahhoz, hogy még több munkát kell végezni. „E technikák közül sok valóban releváns a szabadidős játékokon túl” a valós alkalmazásokban – mondja. "Mindazonáltal a vezető mesterséges intelligencia kutatólaboratóriumoknak egy bizonyos ponton túl kell lépniük a szabadidős beállításokon, és ki kell találniuk, hogyan mérjék a tudományos fejlődést azokon a cukibb valós "játékokon", amelyekkel valójában foglalkozunk."

/MetaNews.

Időbélyeg:

Még több MetaNews