Dlaczego wszyscy kochają Chatbota ChatGPT

Węzeł źródłowy: 1771427

Kolejna gra, od dawna uważana za bardzo trudną do pokonania dla sztucznej inteligencji (AI), przypadła botom: Stratego.

DeepNash, sztuczna inteligencja stworzona przez londyńską firmę DeepMind, teraz pasuje do ekspertów w Stratego, grze planszowej wymagającej długoterminowego myślenia strategicznego w obliczu niedoskonałych informacji.

To ostatnie osiągnięcie jest następstwem kolejnego ważnego zwycięstwa SI w grach, które wcześniej uważano za mocną stronę ludzi.

Tylko w zeszłym tygodniu Cicero Meta, sztuczna inteligencja może przechytrzyć ludzkich graczy w grze Dyplomacja, przeszedł do historii jako przechytrzony przeciwnik online.

„Tempo, w jakim jakościowo różne funkcje gier zostały podbite — lub opanowane do nowych poziomów — przez sztuczną inteligencję w ostatnich latach, jest dość niezwykłe” — mówi Michael Wellman z University of Michigan w Ann Arbor, informatyk, który bada strategiczne rozumowanie i gry teoria.

„Stratego i Diplomacy znacznie się od siebie różnią, a także posiadają wymagające funkcje, które znacznie różnią się od gier, w przypadku których osiągnięto analogiczne kamienie milowe” — powiedział Wellman.

Niedoskonałe informacje

Gra ma cechy, które są na ogół znacznie bardziej skomplikowane niż szachy, Go czy poker. Szachy, Go i Poker zostały opanowane przez sztuczną inteligencję.

W grze Stratego dwóch graczy umieszcza na planszy po 40 pionów, ale nie może widzieć pionów przeciwnika.

Celem gry jest przesuwanie pionków po kolei, aby wyeliminować pionki przeciwnika i zdobyć flagę. 

Drzewo gry Stratego — wykres wszystkich możliwych kierunków, w jakie gra może się potoczyć — ma 10535 stanów w porównaniu do 10360 w Go. 

Jeśli chodzi o niedoskonałe informacje na początku gry, Stratego ma 1066 możliwych pozycji prywatnych, liczbę, która przyćmiewa tylko 106 takich sytuacji początkowych w pokerze Texas Hold'em dla dwóch graczy.

„Sama złożoność liczby możliwych wyników w Stratego oznacza, że ​​algorytmy, które działają dobrze w grach z doskonałą informacją, a nawet te, które działają w pokerze, nie działają” – mówi Julien Perolat, badacz DeepMind z Paryża.

DeepNash został opracowany przez Perolata i jego współpracowników.

Bot inspirowany Nashem

Nazwa bota jest hołdem dla słynnego amerykańskiego matematyka Johna Nasha, który wymyślił teorię równowagi Nasha, która zakłada, że ​​istnieje „stabilny zestaw strategii”, których gracze mogą przestrzegać w taki sposób, że zmiana strategii nie przynosi korzyści żadnemu graczowi na własną rękę. W związku z tym gry mają zwykle zero, jedną lub wiele równowag Nasha.

DeepNash łączy algorytm uczenia się przez wzmacnianie i głęboką sieć neuronową, aby znaleźć równowagę Nasha. 

Ogólnie rzecz biorąc, uczenie się przez wzmacnianie ma miejsce, gdy inteligentny agent (program komputerowy) wchodzi w interakcję ze środowiskiem i uczy się najlepszej polityki dyktowania działań dla każdego stanu gry. 

Aby mieć optymalną politykę, DeepNash rozegrał przeciwko sobie łącznie 5.5 miliarda gier. 

W istocie, jeśli jedna strona zostanie ukarana, druga zostanie nagrodzona, a zmienne sieci neuronowej — reprezentujące politykę — zostaną odpowiednio zmodyfikowane.

Sztuczna inteligencja pokonuje ludzi w strategii — poznaj DeepMash

Sztuczna inteligencja pokonuje ludzi w strategii — poznaj DeepMash

Na pewnym etapie DeepNash zbliża się do przybliżonej równowagi Nasha. W przeciwieństwie do innych botów, DeepNash optymalizuje się bez sprzeszukiwanie drzewa gry.

Przez dwa tygodnie DeepNash grał przeciwko ludzkim graczom Stratego na platformie gier online Gravon.

Po rywalizacji w 50 meczach, Ai zajął trzecie miejsce wśród wszystkich graczy Gravon Stratego od 2002 roku. 

„Nasza praca pokazuje, że tak złożona gra, jak Stratego, zawierająca niedoskonałe informacje, nie wymaga technik wyszukiwania, aby ją rozwiązać” — mówi członek zespołu, Karl Tuyls, badacz DeepMind z Paryża. „To naprawdę duży krok naprzód w dziedzinie sztucznej inteligencji”.

Inni badacze również są pod wrażeniem tego wyczynu.

Imponujące wyniki

„Wyniki są imponujące” — zgadza się Noam Brown, badacz z Meta AI z siedzibą w Nowym Jorku i członek zespołu, który w 2019 roku zgłosił grę w pokera AI Pluribus4.

W Meta, firmie macierzystej Facebooka, Brown i jej koledzy zbudowali sztuczną inteligencję, która może grać w Dyplomację, grę, w której siedmiu graczy rywalizuje o kontrolę nad Europą, przesuwając elementy po mapie.

W Dyplomacji celem jest przejęcie kontroli nad centrami zaopatrzenia poprzez przemieszczanie jednostek (floty i armie). 

Meta mówi, że Cicero jest dość znaczący, ponieważ sztuczna inteligencja opiera się na środowiskach niebędących przeciwnikami.

W przeciwieństwie do przeszłości, w której wieloagentowa sztuczna inteligencja odnosiła największe sukcesy w środowiskach czysto rywalizacyjnych, takich jak szachy, go i poker, w których komunikacja nie miała żadnej wartości, Cicero wykorzystuje silnik wnioskowania strategicznego i kontrolowany moduł dialogowy.

„Kiedy wychodzisz poza dwuosobowe gry o sumie zerowej, idea równowagi Nasha nie jest już tak przydatna do dobrej zabawy z ludźmi” — mówi Brown.

Brown i jej zespół przeszkolili Cycerona, korzystając z danych ze 125,261 XNUMX gier online w wersji Diplomacy z udziałem ludzi. 

Wykorzystując dane z gry własnej i moduł wnioskowania strategicznego (SRM), Cicero nauczył się przewidywać osądzanie na podstawie stanu gry i zgromadzonych wiadomości, prawdopodobnych ruchów i strategii innych graczy. 

Sztuczna inteligencja pokonuje ludzi w strategii — poznaj DeepMash

Sztuczna inteligencja pokonuje ludzi w strategii — poznaj DeepMash

Meta twierdzi, że zebrała dane z 125,261 40,408 gier Dyplomacji rozgrywanych online na webDiplomacy.net. Spośród tych gier łącznie 12,901,662 XNUMX gier zawierało dialogi, a łącznie między graczami wymieniono XNUMX XNUMX XNUMX wiadomości.

Zachowanie w świecie rzeczywistym

Brown wierzy, że grające w gry boty, takie jak Cicero, mogą wchodzić w interakcje z ludźmi i odpowiadać za „nieoptymalne, a nawet irracjonalne działania ludzi, które mogą utorować drogę do zastosowań w świecie rzeczywistym”.

„Jeśli tworzysz samojezdny samochód, nie chcesz zakładać, że wszyscy inni kierowcy na drodze są całkowicie racjonalni i będą zachowywać się optymalnie”, mówi.

Cyceron, dodaje, to duży krok w tym kierunku. „Wciąż jesteśmy jedną nogą w świecie gry, ale teraz jedną nogą jesteśmy również w świecie rzeczywistym”.

Inni, tacy jak Wellman, zgadzają się, ale twierdzą, że wciąż pozostaje wiele do zrobienia. „Wiele z tych technik ma rzeczywiście znaczenie poza grami rekreacyjnymi” w zastosowaniach w świecie rzeczywistym, mówi. „Niemniej jednak w pewnym momencie wiodące laboratoria badawcze AI muszą wyjść poza ustawienia rekreacyjne i dowiedzieć się, jak mierzyć postęp naukowy w bardziej miękkich„ grach ”w świecie rzeczywistym, na których nam naprawdę zależy”.

/MetaWiadomości.

Znak czasu:

Więcej z MetaWiadomości