ChatGPT are potențialul de a deveni un nou super mare maestru de șah? - KDnuggets

Republicat de Platon

Urmaritori: 0

ChatGPT are potențialul de a deveni un nou super mare maestru de șah?
Imagine de la Editor

Ca un fost jucător de șah solid (campion junior, ELO 2000+) și cercetător al datelor NLP, plănuiesc să scriu acest articol de ceva vreme.

The first time I heard about ChatGPT’s ability to play chess, was from one of my colleagues. Ph.D. and a very smart guy. He sent me the link to the webpage where you can play against ChatGPT as he thought. Unfortunately, it wasn’t pure ChatGPT, it was some other chess engine under the hood. He was deceived. You can still try it here: https://parrotchess.com/

În scopul acestui articol, am jucat 2 jocuri împotriva ChatGPT. Iată cum am început:

ChatGPT are potențialul de a deveni un nou super mare maestru de șah?

Să aruncăm o privire la ceea ce sa întâmplat.

Curs de notație rapidă de șah / memento (poate fi omis):

K = rege, Q = regină, R = stâncă, B = Episcop, N = cavaler, 0–0 = Rocare partea regelui. 0–0–0 = Rocarea reginei, x = luarea piesei. Pentru pioni, scriem doar pătratul pe care aterizează, cu excepția cazului în care pionul o capturează. În acest caz, scriem litera pătratului unde a fost pionul înainte și litera și numărul pătratului pe care merge după ce a luat cealaltă piesă. De exemplu, exd4.

Nikola Greb vs. ChatGPT 4, 7 ianuarie 2024

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

Până la mutarea e5, ChatGPT 4 a jucat ca un foarte bun jucător de șah. Putem spune ca GM. Dar când am jucat o mișcare imprecisă, dar agresivă (exd5 a fost cea mai bună mișcare), a pierdut terenul comun și a greșit un pion care joacă Ne4.

ChatGPT are potențialul de a deveni un nou super mare maestru de șah?

Am luat cavalerul cu cavalerul (10. Nxe4) și a apărut prima halucinație:

ChatGPT are potențialul de a deveni un nou super mare maestru de șah?

Bc5 a fost din nou o greșeală, o gafă evidentă. Deoarece restul jocului nu are valoare de șah, o voi rezuma. ChatGPT 4 m-a acuzat de mișcări imposibile și a ajuns în halucinații (propunând mișcări imposibile), în loc să renunț la joc.

Să vedem ce s-a întâmplat în jocul 2, unde am jucat piese negre:

Nikola Greb vs. ChatGPT 4 (mușcări 1–9) și ChatGPT 3.5 (mușcări 10–12), 7 ianuarie 2024

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

Până la poziția de mai jos, Chat GPT 4 a jucat foarte bine, construind o poziție semnificativ mai bună din care aș pierde foarte repede împotriva unui adevărat mare maestru (chiar și a maestrului candidat) sau a unui motor de șah. Dacă albul joacă Bf6, negrul pierde pionul. Cu toate acestea, ChatGPT a jucat Bd3:

ChatGPT are potențialul de a deveni un nou super mare maestru de șah?

Am răspuns cu Ne4, iar ChatGPT a răspuns trecând la versiunea 3.5 și jucând Bxe4.

ChatGPT are potențialul de a deveni un nou super mare maestru de șah?

După câteva mișcări, am avut un avantaj decisiv (din cauza că ChatGPT a jucat prost, nu eu făcând ceva grozav) așa că am decis să testez adversarul cu o mișcare neregulată. Am propus Ne6 pentru negru în această poziție:

ChatGPT are potențialul de a deveni un nou super mare maestru de șah?

ChatGPT 3.5 wasn’t concerned with my move at all. On my hallucination, it responded with the new hallucination:

ChatGPT are potențialul de a deveni un nou super mare maestru de șah?

1. ChatGPT 4 este un jucător de șah foarte slab, care joacă foarte ciudat - foarte bine la începutul deschiderii și groaznic mai târziu. Acest lucru se datorează numărului tot mai mare de opțiuni pe măsură ce jocul de șah progresează. Aș evalua ELO-ul său global ca fiind mai mic de 1500. La fel și pentru 3.5.

2. Nu a avut loc nicio învățare implicită a regulilor — Chat GPT 4 încă halucinează la șah și continuă să halucineze după avertismentul despre halucinație. Acesta este ceva ce nu i se poate întâmpla omului.

3. Mai multe date ar rezolva cu greu problema din cauza cazurilor marginale, cum ar fi jocurile finale extra lungi cu repetare, sau posibilitatea de a juca deschideri neobișnuite. LLM-urile pur și simplu nu sunt construite pentru a juca șah și nici nu pot evalua poziția. Avem deja AlphaZero și Stockfish pentru asta.

4. Urmărirea scăderii numărului de halucinații pe care le efectuează LLM în jocul de șah ar putea fi o cale bună pentru înțelegerea potențialului LLM pentru raționament logic. Dar paradoxul rămâne - LLM „cunoaște” regulile șahului, dar halucinează puternic? viitorul ML ar putea fi în LLM ca agent de prim nivel care comunică cu utilizatorul și apoi apelează agenți specializați cu arhitecturi ML ajustate pentru anumite cazuri de utilizare.

5. LLM-urile au potențialul de a fi utile în cercetarea științifică și arată un nivel interesant de creativitate combinat cu alți algoritmi de învățare automată. Un exemplu recent este algoritmul FunSearch dezvoltat de DeepMind care combină LLM și evaluator pentru a face descoperiri în matematică. Spre deosebire de șah, unde evaluarea poziției este cea mai grea sarcină, multe probleme din științele matematice sunt „ușor de evaluat, în ciuda faptului că sunt de obicei greu de rezolvat”.

Sunt sceptic cu privire la construirea unui program de joc de șah performant, bazat pe arhitectura transformatoare, totuși LLM specializat combinat cu evaluare externă/program de șah ar putea fi un bun înlocuitor pentru antrenorii de șah în curând. DeepMind a creat un alt model grozav care este un exemplu bun de combinare a LLM și a unui model specializat AI - AlphaGeometry. Este foarte aproape de standardul medaliat cu aur la Olimpiada pentru probleme de geometrie, avansând raționamentul AI în matematică.

6. LLM-urile sunt încă proaspete, domeniul este foarte tânăr și există prea mult hype care este adesea susținut de concluzii înșelătoare și greșite. După cum afirmă autorii „Descoperirilor matematice din căutarea programelor cu modele mari de limbaj”:

“…to the best of our knowledge, this shows the first scientific discovery — a new piece of verifiable knowledge about a notorious scientific problem — using an LLM.” (accelerated preview was published on the 14 of December 2023).

7. Clipul lui Joe Rogan și 2 invitați, intitulat „Nu mi-a fost frică de IA până când am învățat asta” a fost vizionat de 2,8 milioane de oameni pe YouTube. Unul dintre invitați spune că ChatGPT știe să joace șah, ceea ce evident nu este adevărul. Îmi pot imagina cum influențează acest tip de conținut oamenii, în special persoanele needucate sau instabili emoțional. Nu într-un sens bun, sunt sigur de asta.

În concluzie, știința datelor și dezvoltarea software-ului se bazează pe cunoaștere, precizie și căutarea adevărului. În calitate de oameni de știință și dezvoltatori de date, ar trebui să fim oameni ai adevărului și înțelepciunii, calmând nebunia produsă de mass-media despre AI, nu declanșând-o. Transformers, inclusiv ChatGPT, au un mare potențial în sarcinile lingvistice, dar sunt încă foarte departe de AGI. Ar trebui să fim optimiști, dar corecti.

Ca îndrumare, înainte de a arunca bombe, ar trebui să ne întrebăm: Ce s-ar întâmpla dacă altcineva ar acţiona după declaraţiile mele? În ce fel de lume vrei să trăiești?

Referințe și explorare ulterioară

Stăpânirea șahului și a shogi-ului prin joc propriu cu un algoritm general de învățare de întărire: https://arxiv.org/pdf/1712.01815.pdf
FunSearch: realizarea de noi descoperiri în științele matematice folosind modele de limbaj mari: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/
Descoperiri matematice din căutarea programelor cu modele mari de limbaj: https://www.nature.com/articles/s41586-023-06924-6
AlphaGeometry: Un sistem AI la nivel de Olimpiada pentru geometrie: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
Nu mi-a fost frică de AI până nu am învățat asta: https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
Cum să joci șah împotriva ChatGPT (și de ce probabil nu ar trebui să faci): https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
Poate Chat GPT să joace șah?: https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
Cât de bun este ChatGPT să joace șah? (Spoiler: vei fi impresionat): https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
Stăpânirea șahului și a shogi-ului prin joc propriu cu un algoritm general de învățare de întărire: https://arxiv.org/pdf/1712.01815.pdf

Nikola Greb codifică de mai bine de patru ani, iar în ultimii doi ani s-a specializat în NLP. Înainte de a se ocupa de știința datelor, a avut succes în vânzări, resurse umane, scris și șah.