Har ChatGPT potentialet til at blive en ny skak-superstormester? - KDnuggets

Genudgivet af Platon

Abonnenter: 0

Har ChatGPT potentialet til at blive en ny skak-superstormester?
Billede fra Editor

Som en solid ex-skakspiller (junior mester, ELO 2000+) og NLP data scientist har jeg planlagt at skrive denne artikel i et stykke tid.

Første gang jeg hørte om ChatGPT's evne til at spille skak, var fra en af mine kolleger. Ph.D. og en meget smart fyr. Han sendte mig linket til websiden, hvor du kan spille mod ChatGPT, som han troede. Desværre var det ikke ren ChatGPT, det var en anden skakmotor under motorhjelmen. Han blev bedraget. Du kan stadig prøve det her: https://parrotchess.com/

Med henblik på denne artikel spillede jeg 2 kampe mod ChatGPT. Sådan startede vi:

Har ChatGPT potentialet til at blive en ny skak-superstormester?

Lad os se på, hvad der skete.

Hurtig skaknotationskursus / påmindelse (kan springes over):

K = konge, Q = dronning, R = klippe, B = Biskop, N = ridder, 0–0 = Rokkekongens side. 0–0–0 = Rode dronningens side, x = at tage brikken. For bønder skriver vi bare den firkant, den lander, undtagen når bonden fanger. I så fald skriver vi bogstavet på den firkant, hvor bonden var før, og bogstavet og tallet på den firkant, den går på, efter at have taget den anden brik. For eksempel exd4.

Nikola Greb vs. ChatGPT 4, den 7. januar 2024

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

Indtil træk e5 spillede ChatGPT 4 som en meget god skakspiller. Vi kan sige som GM. Men da jeg spillede et upræcist, men alligevel aggressivt træk (exd5 var det bedste træk), mistede det det fælles fodslag og tabte en bonde, der spillede Ne4.

Har ChatGPT potentialet til at blive en ny skak-superstormester?

Jeg tog ridderen med ridderen (10. Nxe4), og den første hallucination opstod:

Har ChatGPT potentialet til at blive en ny skak-superstormester?

Bc5 var igen en fejl, en åbenlys bommert. Da resten af spillet ikke har nogen skakværdi, vil jeg opsummere det. ChatGPT 4 anklagede mig for umulige træk og endte i hallucinationer (foreslog umulige træk) i stedet for at overgive spillet.

Lad os se, hvad der skete i spil 2, hvor jeg spillede sorte brikker:

Nikola Greb vs. ChatGPT 4 (træk 1-9) og ChatGPT 3.5 (træk 10-12), den 7. januar 2024

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

Indtil nedenstående position spillede Chat GPT 4 meget godt og byggede en væsentligt bedre position, hvorfra jeg ville tabe meget hurtigt mod en rigtig stormester (selv kandidaten mesteren) eller skakmotor. Hvis hvid spiller Bf6, mister sort bonden. Alligevel spillede ChatGPT Bd3:

Har ChatGPT potentialet til at blive en ny skak-superstormester?

Jeg svarede med Ne4, og ChatGPT svarede ved at skifte til version 3.5 og spille Bxe4.

Har ChatGPT potentialet til at blive en ny skak-superstormester?

Efter et par træk havde jeg en afgørende fordel (på grund af at ChatGPT spillede dårligt, ikke jeg gjorde noget godt), så jeg besluttede at teste modstanderen med et uregelmæssigt træk. Jeg foreslog Ne6 for sort i denne position:

Har ChatGPT potentialet til at blive en ny skak-superstormester?

ChatGPT 3.5 var overhovedet ikke bekymret for mit træk. På min hallucination svarede den med den nye hallucination:

Har ChatGPT potentialet til at blive en ny skak-superstormester?

1. ChatGPT 4 er en meget svag skakspiller, som spiller meget mærkeligt — meget godt i tidlig åbning og forfærdeligt senere. Dette skyldes det stigende antal muligheder, efterhånden som skakspillet skrider frem. Jeg vil vurdere hans samlede ELO til at være lavere end 1500. Samme for 3.5.

2. Der skete ingen implicit indlæring af regler - Chat GPT 4 hallucinerer stadig i skak og bliver ved med at hallucinere efter advarslen om hallucinationen. Dette er noget, der ikke kan ske for mennesket.

3. Flere data ville næppe løse problemet på grund af kantsager som ekstra lange slutspil med gentagelser, eller muligheden for at spille usædvanlige åbninger. LLM'er er simpelthen ikke bygget til at spille skak og kan heller ikke evaluere positionen. Det har vi allerede AlphaZero og Stockfish til.

4. At spore faldet i antallet af hallucinationer, som LLM'er udfører i at spille skak, kan være en god vej til at forstå potentialet i LLM'er for logisk ræsonnement. Men paradokset forbliver - LLM "kender" reglerne for skak, men hallucinerer alligevel kraftigt? fremtiden for ML kan være i LLM som den første-niveau-agent, der kommunikerer til brugeren og derefter kalder specialiserede agenter med ML-arkitekturer, der er tilpasset til særlige use cases.

5. LLM'er har potentialet til at være nyttige i videnskabelig forskning og vise et interessant niveau af kreativitet kombineret med andre maskinlæringsalgoritmer. Et nyligt eksempel er FunSearch-algoritmen udviklet af DeepMind, der kombinerer LLM og evaluator for at gøre opdagelser i matematik. I modsætning til skak, hvor evalueringen af stillingen er den sværeste opgave, er mange problemer i matematiske videnskaber "lette at evaluere, på trods af at de typisk er svære at løse".

Jeg er skeptisk over for at bygge et velfungerende skakspilprogram baseret på transformatorarkitektur, men alligevel kan specialiseret LLM kombineret med ekstern evaluering/skakprogram være en god erstatning for skaktrænere snart. DeepMind skabte endnu en cool model, der er et godt eksempel på at kombinere LLM og en specialiseret AI-model - AlphaGeometry. Det er meget tæt på Olympiadens guldmedaljestandard for geometriproblemer, hvilket fremmer AI-ræsonnementet i matematik.

6. LLM'er er stadig friske, feltet er meget ungt, og der er for meget hype, der ofte bakkes op af vildledende og forkerte konklusioner. Som forfatterne til ''Matematiske opdagelser fra programsøgning med store sprogmodeller'' siger:

"... så vidt vi ved, viser dette den første videnskabelige opdagelse - et nyt stykke verificerbar viden om et berygtet videnskabeligt problem - ved hjælp af en LLM." (accelereret forhåndsvisning blev offentliggjort den 14. december 2023).

7. Klippet af Joe Rogan og 2 gæster, med titlen ''I Wasn't Afraid of AI Until I Learned This'' blev set af 2,8 millioner mennesker på YouTube. En af gæsterne siger, at ChatGPT ved, hvordan man spiller skak, hvilket åbenbart ikke er sandheden. Jeg kan bare forestille mig, hvordan denne form for indhold påvirker mennesker, især uuddannede eller følelsesmæssigt ustabile individer. Ikke på en god måde, jeg er sikker på det.

For at konkludere, er datavidenskab og softwareudvikling bygget på viden, præcision og sandhedssøgning. Som datavidenskabsmænd og -udviklere bør vi være mennesker med sandhed og visdom, og vi skal berolige det vanvid, der er produceret af massemedier om AI, og ikke tænde for det. Transformere, herunder ChatGPT, har et stort potentiale i sprogopgaver, men de er stadig meget langt væk fra AGI. Vi bør være optimistiske, men korrekte.

Som en rettesnor, før vi kaster bomber, bør vi spørge os selv: Hvad ville der ske, hvis en anden ville handle efter mine udtalelser? Hvilken slags verden vil du leve i?

Referencer og yderligere udforskning

Mestring af skak og shogi ved selvspil med en generel forstærkningsindlæringsalgoritme: https://arxiv.org/pdf/1712.01815.pdf
FunSearch: Gør nye opdagelser inden for matematiske videnskaber ved hjælp af store sprogmodeller: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/
Matematiske opdagelser fra programsøgning med store sprogmodeller: https://www.nature.com/articles/s41586-023-06924-6
AlphaGeometry: Et Olympiad-level AI-system til geometri: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
Jeg var ikke bange for kunstig intelligens, før jeg lærte dette: https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
Sådan spiller du skak mod ChatGPT (og hvorfor du nok ikke burde): https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
Kan Chat GPT spille skak?: https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
Hvor god er ChatGPT til at spille skak? (Spoiler: du vil blive imponeret): https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
Mestring af skak og shogi ved selvspil med en generel forstærkningsindlæringsalgoritme: https://arxiv.org/pdf/1712.01815.pdf

Nikola Greb har kodet i mere end fire år, og de seneste to år har han specialiseret sig i NLP. Før han vendte sig til datavidenskab, havde han succes inden for salg, HR, skrivning og skak.