Czy ChatGPT ma potencjał, aby zostać nowym superarcymistrzem szachowym? - KDnuggets

Opublikowane ponownie przez Plato

Obserwuje: 0

Czy ChatGPT ma potencjał, aby zostać nowym superarcymistrzem szachowym?
Zdjęcie od redaktora

Jako solidny były szachista (mistrz juniorów, ELO 2000+) i analityk danych NLP, nosiłem się z zamiarem napisania tego artykułu już od jakiegoś czasu.

Po raz pierwszy usłyszałem o możliwościach ChatGPT do gry w szachy od jednego z moich kolegów. Doktorat i bardzo mądry facet. Wysłał mi link do strony, na której, jak sądził, możesz grać przeciwko ChatGPT. Niestety nie był to czysty ChatGPT, był to jakiś inny silnik szachowy pod maską. Został oszukany. Nadal możesz spróbować tutaj: https://parrotchess.com/

Na potrzeby tego artykułu rozegrałem 2 gry przeciwko ChatGPT. Oto jak zaczynaliśmy:

Czy ChatGPT ma potencjał, aby zostać nowym superarcymistrzem szachowym?

Spójrzmy co się stało.

Szybki kurs notacji szachowej / przypomnienie (można pominąć):

K = król, Q = królowa, R = skała, B = goniec, N = rycerz, 0–0 = roszada po stronie króla. 0–0–0 = strona królowej roszady, x = przejęcie figury. W przypadku pionków po prostu zapisujemy pole, na którym ląduje, z wyjątkiem sytuacji, gdy pionek zbija. W takim przypadku piszemy literę pola, na którym pionek znajdował się wcześniej, oraz literę i numer pola, na które trafia po wzięciu drugiej figury. Na przykład exd4.

Nikola Greb kontra ChatGPT 4, 7 stycznia 2024 r

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

Do posunięcia e5 ChatGPT 4 grał jak bardzo dobry szachista. Można powiedzieć jak GM. Ale kiedy wykonałem nieprecyzyjny, ale agresywny ruch (najlepszym ruchem był exd5), stracił on wspólną płaszczyznę i popełnił błąd pionka grającego Ne4.

Czy ChatGPT ma potencjał, aby zostać nowym superarcymistrzem szachowym?

Wziąłem skoczka z skoczkiem (10. Sxe4) i pojawiła się pierwsza halucynacja:

Czy ChatGPT ma potencjał, aby zostać nowym superarcymistrzem szachowym?

Gc5 było znowu błędem, oczywistym błędem. Ponieważ reszta gry nie ma wartości szachowej, podsumuję to. ChatGPT 4 oskarżył mnie o niemożliwe ruchy, co zakończyło się halucynacjami (proponowaniem niemożliwych ruchów), zamiast poddać się grze.

Zobaczmy, co wydarzyło się w partii 2, w której grałem czarnymi figurami:

Nikola Greb kontra ChatGPT 4 (porusza się 1–9) i ChatGPT 3.5 (porusza się 10–12), 7 stycznia 2024 r.

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

Do poniższej pozycji Chat GPT 4 grał bardzo dobrze, budując znacznie lepszą pozycję, z której bardzo szybko przegrałbym z prawdziwym arcymistrzem (nawet kandydatem na mistrza) lub silnikiem szachowym. Jeśli biały zagra Gf6, czarny straci pionka. Jednak ChatGPT grał w Bd3:

Czy ChatGPT ma potencjał, aby zostać nowym superarcymistrzem szachowym?

Odpowiedziałem Ne4, a ChatGPT odpowiedział, przechodząc do wersji 3.5 i grając w Bxe4.

Czy ChatGPT ma potencjał, aby zostać nowym superarcymistrzem szachowym?

Po kilku ruchach miałem zdecydowaną przewagę (ze względu na to, że ChatGPT gra źle, a nie że zrobiłem coś świetnego), więc zdecydowałem się przetestować przeciwnika nieregularnym ruchem. Zaproponowałem Ne6 dla czarnych w takiej pozycji:

Czy ChatGPT ma potencjał, aby zostać nowym superarcymistrzem szachowym?

ChatGPT 3.5 w ogóle nie przejął się moim ruchem. Na moją halucynację odpowiedział nową halucynacją:

Czy ChatGPT ma potencjał, aby zostać nowym superarcymistrzem szachowym?

1. ChatGPT 4 to bardzo słaby szachista, który gra bardzo dziwnie – bardzo dobrze na początku gry i fatalnie później. Dzieje się tak ze względu na rosnącą liczbę opcji w miarę postępów w grze w szachy. Jego ogólne ELO oceniłbym na niższe niż 1500. Podobnie na 3.5.

2. Nie doszło do żadnego ukrytego uczenia się zasad — Chat GPT 4 nadal ma halucynacje w szachach i nadal ma halucynacje po ostrzeżeniu o halucynacjach. To coś, co nie może przydarzyć się człowiekowi.

3. Więcej danych raczej nie rozwiązałoby problemu ze względu na skrajne przypadki, takie jak bardzo długie końcówki z powtórzeniami lub możliwość rozegrania nietypowych debiutów. LLM po prostu nie są stworzone do gry w szachy, ani nie mogą oceniać pozycji. Mamy już do tego AlphaZero i Stockfisha.

4. Śledzenie spadku liczby halucynacji, których doświadczają LLM podczas gry w szachy, może być dobrą drogą do zrozumienia potencjału LLM w zakresie logicznego rozumowania. Ale pozostaje paradoks — LLM „zna” zasady szachów, a mimo to ma silne halucynacje? przyszłość ML może wiązać się z LLM jako agentem pierwszego poziomu, który komunikuje się z użytkownikiem, a następnie wywołuje wyspecjalizowanych agentów z architekturami ML dostosowanymi do konkretnych przypadków użycia.

5. LLM mają potencjał, aby być przydatne w badaniach naukowych i wykazywać interesujący poziom kreatywności w połączeniu z innymi algorytmami uczenia maszynowego. Niedawnym przykładem jest algorytm FunSearch opracowany przez DeepMind, który łączy LLM i ewaluatora w celu dokonywania odkryć matematycznych. W przeciwieństwie do szachów, gdzie ocena pozycji jest najtrudniejszym zadaniem, wiele problemów w naukach matematycznych jest „łatwych do oceny, mimo że zazwyczaj są trudne do rozwiązania”.

Jestem sceptyczny co do zbudowania dobrze działającego programu gry w szachy w oparciu o architekturę transformatorów, jednak wyspecjalizowany LLM w połączeniu z zewnętrzną oceną/programem szachowym może wkrótce stać się dobrym substytutem dla trenerów szachowych. DeepMind stworzył kolejny fajny model, który jest dobrym przykładem połączenia LLM i wyspecjalizowanego modelu AI — AlphaGeometry. Jest bardzo zbliżony do standardu złotego medalisty olimpijskiego w zakresie problemów geometrycznych, co wspiera rozumowanie sztucznej inteligencji w matematyce.

6. Studia LLM są wciąż świeże, dziedzina jest bardzo młoda i panuje zbyt duży szum informacyjny, często poparty wprowadzającymi w błąd i błędnymi wnioskami. Jak stwierdzają autorzy książki „Odkrycia matematyczne z poszukiwań programowych z dużymi modelami językowymi”:

„… zgodnie z naszą najlepszą wiedzą, przedstawia to pierwsze odkrycie naukowe – nową część weryfikowalnej wiedzy na temat notorycznego problemu naukowego – przy użyciu LLM”. (przyspieszona wersja zapoznawcza została opublikowana 14 grudnia 2023 r.).

7. Klip Joe Rogana i 2 gości zatytułowany „Nie bałem się sztucznej inteligencji, dopóki się tego nie nauczyłem” obejrzało w serwisie YouTube 2,8 miliona osób. Jeden z gości twierdzi, że ChatGPT umie grać w szachy, co oczywiście nie jest prawdą. Mogę sobie tylko wyobrazić, jak tego rodzaju treści wpływają na ludzi, zwłaszcza na osoby niewykształcone lub niestabilne emocjonalnie. Nie w dobry sposób, jestem tego pewien.

Podsumowując, nauka o danych i rozwój oprogramowania opierają się na wiedzy, precyzji i poszukiwaniu prawdy. Jako badacze danych i programiści powinniśmy być ludźmi prawdy i mądrości, uspokajającymi szaleństwo wywołane przez środki masowego przekazu na temat sztucznej inteligencji, a nie je rozpalać. Transformersy, w tym ChatGPT, mają ogromny potencjał w zadaniach językowych, ale do AGI wciąż im bardzo daleko. Powinniśmy być optymistami, ale poprawnymi.

Kierując się wskazówką, że przed zrzuceniem bomb powinniśmy zadać sobie pytanie: co by się stało, gdyby ktoś inny postąpił zgodnie z moimi oświadczeniami? W jakim świecie chcesz żyć?

Referencje i dalsze badania

Opanowanie szachów i Shogi poprzez samodzielną grę z ogólnym algorytmem uczenia się przez wzmacnianie: https://arxiv.org/pdf/1712.01815.pdf
FunSearch: Dokonywanie nowych odkryć w naukach matematycznych przy użyciu dużych modeli językowych: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/
Odkrycia matematyczne z wyszukiwania programów z dużymi modelami językowymi: https://www.nature.com/articles/s41586-023-06924-6
AlphaGeometry: system sztucznej inteligencji na poziomie olimpijskim do geometrii: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
Nie bałem się sztucznej inteligencji, dopóki się tego nie nauczyłem: https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
Jak grać w szachy przeciwko ChatGPT (i dlaczego prawdopodobnie nie powinieneś): https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
Czy na czacie GPT można grać w szachy?: https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
Jak dobry jest ChatGPT w grze w szachy? (Spoiler: będziesz pod wrażeniem): https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
Opanowanie szachów i Shogi poprzez samodzielną grę z ogólnym algorytmem uczenia się przez wzmacnianie: https://arxiv.org/pdf/1712.01815.pdf

Nikola Greb koduje od ponad czterech lat, a od dwóch lat specjalizuje się w NLP. Zanim zajął się analityką danych, odnosił sukcesy w sprzedaży, HR, pisaniu i szachach.