Har ChatGPT potensialet til å bli en ny superstormester i sjakk? - KDnuggets

Publisert av Platon

Følgere: 0

Har ChatGPT potensialet til å bli en ny superstormester i sjakk?
Bilde fra Editor

Som en solid eks-sjakkspiller (juniormester, ELO 2000+) og NLP-dataforsker har jeg planlagt å skrive denne artikkelen en stund.

Første gang jeg hørte om ChatGPTs evne til å spille sjakk, var fra en av mine kolleger. Ph.D. og en veldig smart fyr. Han sendte meg lenken til nettsiden der du kan spille mot ChatGPT som han trodde. Dessverre var det ikke ren ChatGPT, det var en annen sjakkmotor under panseret. Han ble lurt. Du kan fortsatt prøve det her: https://parrotchess.com/

For formålet med denne artikkelen spilte jeg 2 kamper mot ChatGPT. Her er hvordan vi startet:

Har ChatGPT potensialet til å bli en ny superstormester i sjakk?

La oss ta en titt på hva som skjedde.

Hurtigsjakknotasjonskurs / påminnelse (kan hoppes over):

K = konge, Q = dronning, R = klippe, B = Biskop, N = ridder, 0–0 = Rokkekongens side. 0–0–0 = Ropedronningens side, x = ta brikken. For bønder skriver vi bare ruten den lander, bortsett fra når bonden fanger. I så fall skriver vi bokstaven på ruten der bonden var før, og bokstaven og nummeret på ruten den går på etter å ha tatt den andre brikken. For eksempel exd4.

Nikola Greb vs. ChatGPT 4, 7. januar 2024

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

Inntil trekket e5 spilte ChatGPT 4 som en veldig god sjakkspiller. Vi kan si som GM. Men da jeg spilte et upresist, men likevel aggressivt trekk (exd5 var det beste trekket), mistet det felles grunn og feilet en bonde som spilte Ne4.

Har ChatGPT potensialet til å bli en ny superstormester i sjakk?

Jeg tok ridderen med ridderen (10. Nxe4) og den første hallusinasjonen skjedde:

Har ChatGPT potensialet til å bli en ny superstormester i sjakk?

Bc5 var igjen en feil, en åpenbar tabbe. Siden resten av spillet ikke har noen sjakkverdi, skal jeg oppsummere det. ChatGPT 4 anklaget meg for umulige trekk, og endte opp i hallusinasjoner (foreslo umulige trekk), i stedet for å overgi spillet.

La oss se hva som skjedde i spill 2, der jeg spilte svarte brikker:

Nikola Greb vs. ChatGPT 4 (trekk 1–9) og ChatGPT 3.5 (trekk 10–12), 7. januar 2024

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

Inntil posisjonen nedenfor spilte Chat GPT 4 veldig bra, og bygget en betydelig bedre posisjon som jeg ville tape veldig raskt fra mot en ekte stormester (til og med kandidaten master) eller sjakkmotor. Hvis hvit spiller Bf6, mister svart bonden. Likevel spilte ChatGPT Bd3:

Har ChatGPT potensialet til å bli en ny superstormester i sjakk?

Jeg svarte med Ne4, og ChatGPT svarte med å bytte til versjon 3.5 og spille Bxe4.

Har ChatGPT potensialet til å bli en ny superstormester i sjakk?

Etter noen få trekk hadde jeg en avgjørende fordel (på grunn av at ChatGPT spilte dårlig, ikke jeg gjorde noe bra), så jeg bestemte meg for å teste motstanderen med et uregelmessig trekk. Jeg foreslo Ne6 for svart i denne stillingen:

Har ChatGPT potensialet til å bli en ny superstormester i sjakk?

ChatGPT 3.5 var ikke opptatt av flyttingen min i det hele tatt. På min hallusinasjon svarte den med den nye hallusinasjonen:

Har ChatGPT potensialet til å bli en ny superstormester i sjakk?

1. ChatGPT 4 er en veldig svak sjakkspiller, som spiller veldig rart — veldig bra i tidlig åpning og forferdelig senere. Dette skyldes det økende antallet alternativer etter hvert som sjakkspillet skrider frem. Jeg vil vurdere hans samlede ELO til å være lavere enn 1500. Samme for 3.5.

2. Ingen implisitt læring av regler skjedde – Chat GPT 4 hallusinerer fortsatt i sjakk, og fortsetter å hallusinere etter advarselen om hallusinasjonen. Dette er noe som ikke kan skje med mennesket.

3. Mer data ville neppe løse problemet på grunn av kantsakene som ekstra lange sluttspill med repetisjon, eller muligheten for å spille uvanlige åpninger. LLM-er er rett og slett ikke bygget for å spille sjakk, og kan heller ikke evaluere posisjonen. Vi har allerede AlphaZero og Stockfish for det.

4. Å spore nedgangen i antall hallusinasjoner som LLM-er utfører når de spiller sjakk kan være en god vei for å forstå potensialet til LLM-er for logisk resonnement. Men paradokset gjenstår - LLM "kjenner" reglene for sjakk, men hallusinerer likevel tungt? fremtiden til ML kan være i LLM som førstenivåagenten som kommuniserer til brukeren og deretter kaller spesialiserte agenter med ML-arkitekturer justert for spesielle brukstilfeller.

5. LLM-er har potensial til å være nyttige i vitenskapelig forskning og viser et interessant nivå av kreativitet kombinert med andre maskinlæringsalgoritmer. Et nylig eksempel er FunSearch-algoritmen utviklet av DeepMind som kombinerer LLM og evaluator for å gjøre oppdagelser i matematikk. I motsetning til sjakk hvor evalueringen av stillingen er den vanskeligste oppgaven, er mange problemer i matematiske vitenskaper "enkle å evaluere, til tross for at de vanligvis er vanskelige å løse".

Jeg er skeptisk til å bygge et godt fungerende sjakkspillprogram basert på transformatorarkitektur, men spesialisert LLM kombinert med ekstern evaluering/sjakkprogram kan snart være en god erstatning for sjakktrenere. DeepMind skapte en annen kul modell som er et godt eksempel på å kombinere LLM og en spesialisert AI-modell - AlphaGeometry. Det er veldig nær Olympiadens gullmedaljestandard for geometriproblemer, og fremmer AI-resonnement i matematikk.

6. LLM-er er fortsatt ferske, feltet er veldig ungt og det er for mye hype som ofte støttes av misvisende og feilaktige konklusjoner. Som forfatterne av ''Matematiske oppdagelser fra programsøk med store språkmodeller'' sier:

"...så vidt vi vet, viser dette den første vitenskapelige oppdagelsen - et nytt stykke verifiserbar kunnskap om et beryktet vitenskapelig problem - ved å bruke en LLM." (akselerert forhåndsvisning ble publisert 14. desember 2023).

7. Klippet av Joe Rogan og 2 gjester, med tittelen ''I Wasn't Afraid of AI Until I Learned This'' ble sett av 2,8 millioner mennesker på YouTube. En av gjestene sier at ChatGPT vet hvordan man spiller sjakk, noe som åpenbart ikke er sannheten. Jeg kan bare forestille meg hvordan denne typen innhold påvirker mennesker, spesielt uutdannede eller følelsesmessig ustabile individer. Ikke på en god måte, jeg er sikker på det.

For å konkludere, er datavitenskap og programvareutvikling bygget på kunnskap, presisjon og sannhetssøking. Som dataforskere og utviklere bør vi være mennesker med sannhet og visdom, og roe ned galskapen som produseres av massemedier om AI, ikke fyre opp. Transformatorer, inkludert ChatGPT, har stort potensial i språkoppgaver, men de er fortsatt veldig langt unna AGI. Vi bør være optimistiske, men riktige.

Som en retningslinje, før vi slipper bomber, bør vi spørre oss selv: Hva ville skje hvis noen andre ville handle på mine uttalelser? Hva slags verden vil du leve i?

Referanser og videre utforskning

Mestring av sjakk og shogi ved å spille selv med en generell forsterkende læringsalgoritme: https://arxiv.org/pdf/1712.01815.pdf
FunSearch: Gjør nye oppdagelser i matematiske vitenskaper ved hjelp av store språkmodeller: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/
Matematiske funn fra programsøk med store språkmodeller: https://www.nature.com/articles/s41586-023-06924-6
AlphaGeometry: Et AI-system på Olympiad-nivå for geometri: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
Jeg var ikke redd for kunstig intelligens før jeg lærte dette: https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
Slik spiller du sjakk mot ChatGPT (og hvorfor du sannsynligvis ikke burde): https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
Kan Chat GPT spille sjakk?: https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
Hvor god er ChatGPT til å spille sjakk? (Spoiler: du vil bli imponert): https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
Mestring av sjakk og shogi ved å spille selv med en generell forsterkende læringsalgoritme: https://arxiv.org/pdf/1712.01815.pdf

Nikola Greb har kodet i mer enn fire år, og de siste to årene spesialiserte han seg på NLP. Før han vendte seg til datavitenskap, hadde han suksess innen salg, HR, skriving og sjakk.