Heeft ChatGPT het potentieel om een nieuwe schaaksupergrootmeester te worden? - KDnuggets

Heruitgegeven door Plato

volgers: 0

Heeft ChatGPT het potentieel om een nieuwe schaaksupergrootmeester te worden?
Afbeelding van Editor

Als solide ex-schaker (jeugdkampioen, ELO 2000+) en NLP-datawetenschapper ben ik al een tijdje van plan dit artikel te schrijven.

De eerste keer dat ik hoorde over de mogelijkheid van ChatGPT om te schaken, was van een van mijn collega's. Ph.D. en een heel slimme kerel. Hij stuurde me de link naar de webpagina waar je volgens hem tegen ChatGPT kunt spelen. Helaas was het niet puur ChatGPT, het was een andere schaakengine onder de motorkap. Hij werd misleid. Je kunt het hier nog steeds proberen: https://parrotchess.com/

Voor de doeleinden van dit artikel heb ik 2 games gespeeld tegen de ChatGPT. Hier is hoe we begonnen:

Heeft ChatGPT het potentieel om een nieuwe schaaksupergrootmeester te worden?

Laten we eens kijken wat er is gebeurd.

Cursus voor snelle schaaknotatie / herinnering (kan worden overgeslagen):

K = koning, Q = koningin, R = steen, B = Bisschop, N = paard, 0–0 = Rokade van de koning. 0–0–0 = Damezijde rokeren, x = het stuk nemen. Voor pionnen schrijven we gewoon het veld waarop hij landt, behalve wanneer de pion slaat. In dat geval schrijven we de letter van het veld waar de pion voorheen stond, en de letter en het nummer van het veld waarop hij staat nadat hij het andere stuk heeft gepakt. Bijvoorbeeld exd4.

Nikola Greb vs. ChatGPT 4, 7 januari 2024

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

Tot de zet e5 speelde ChatGPT 4 als een zeer goede schaker. We kunnen zeggen als GM. Maar toen ik een onnauwkeurige, maar toch agressieve zet speelde (exd5 was de beste zet), verloor deze de gemeenschappelijke basis en blunderde een pion die Pe4 speelde.

Heeft ChatGPT het potentieel om een nieuwe schaaksupergrootmeester te worden?

Ik nam het paard mee met het paard (10. Pxe4) en de eerste hallucinatie vond plaats:

Heeft ChatGPT het potentieel om een nieuwe schaaksupergrootmeester te worden?

Lc5 was opnieuw een vergissing, een duidelijke blunder. Omdat de rest van het spel geen schaakwaarde heeft, zal ik het samenvatten. ChatGPT 4 beschuldigde mij van onmogelijke zetten en eindigde in hallucinaties (het voorstellen van onmogelijke zetten), in plaats van het spel over te geven.

Laten we eens kijken wat er gebeurde in spel 2, waarin ik zwarte stukken speelde:

Nikola Greb vs. ChatGPT 4 (zetten 1–9) en ChatGPT 3.5 (zetten 10–12), 7 januari 2024

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

Tot de onderstaande positie speelde Chat GPT 4 erg goed, waardoor een aanzienlijk betere positie werd opgebouwd waarvan ik heel snel zou verliezen tegen een echte grootmeester (zelfs de kandidaat-meester) of schaakengine. Als wit Lf6 speelt, verliest zwart de pion. Toch speelde ChatGPT Bd3:

Heeft ChatGPT het potentieel om een nieuwe schaaksupergrootmeester te worden?

Ik reageerde met Ne4 en ChatGPT reageerde door over te schakelen naar versie 3.5 en Bxe4 te spelen.

Heeft ChatGPT het potentieel om een nieuwe schaaksupergrootmeester te worden?

Na een paar zetten had ik een beslissend voordeel (omdat ChatGPT slecht speelde en ik niet iets geweldigs deed), dus besloot ik de tegenstander op de proef te stellen met een onregelmatige zet. Ik stelde Pe6 voor zwart in deze stelling voor:

Heeft ChatGPT het potentieel om een nieuwe schaaksupergrootmeester te worden?

ChatGPT 3.5 hield zich helemaal niet bezig met mijn zet. Op mijn hallucinatie reageerde het met de nieuwe hallucinatie:

Heeft ChatGPT het potentieel om een nieuwe schaaksupergrootmeester te worden?

1. ChatGPT 4 is een erg zwakke schaker, die heel vreemd speelt: heel goed in de vroege opening en verschrikkelijk later. Dit komt door het toenemende aantal opties naarmate het schaakspel vordert. Ik schat dat zijn totale ELO lager is dan 1500. Hetzelfde geldt voor 3.5.

2. Er is geen sprake geweest van impliciet leren van regels. Chat GPT 4 hallucineert nog steeds bij het schaken, en blijft hallucineren na de waarschuwing over de hallucinatie. Dit is iets dat de mens niet kan overkomen.

3. Meer data zou het probleem nauwelijks oplossen vanwege de randgevallen zoals extra lange eindspelen met herhaling, of de mogelijkheid om ongebruikelijke openingen te spelen. LLM's zijn simpelweg niet gebouwd om te schaken en kunnen de positie ook niet evalueren. Daarvoor hebben we al AlphaZero en Stockfish.

4. Het volgen van de daling in het aantal hallucinaties dat LLM's vertonen tijdens het schaken zou een goed pad kunnen zijn om het potentieel van LLM's voor logisch redeneren te begrijpen. Maar de paradox blijft bestaan: LLM “kent” de regels van het schaakspel, maar hallucineert hevig? de toekomst van ML zou in LLM kunnen liggen als de agent op het eerste niveau die met de gebruiker communiceert en vervolgens gespecialiseerde agenten oproept met ML-architecturen die zijn aangepast voor specifieke gebruiksscenario's.

5. LLM's hebben het potentieel om nuttig te zijn in wetenschappelijk onderzoek en tonen een interessant niveau van creativiteit in combinatie met andere machine learning-algoritmen. Een recent voorbeeld is het door DeepMind ontwikkelde FunSearch-algoritme dat LLM en evaluator combineert om ontdekkingen in de wiskunde te doen. In tegenstelling tot schaken, waar de evaluatie van de positie de moeilijkste taak is, zijn veel problemen in de wiskundige wetenschappen “gemakkelijk te evalueren, ondanks dat ze doorgaans moeilijk op te lossen zijn”.

Ik ben sceptisch over het bouwen van een goed presterend schaakprogramma gebaseerd op de architectuur van Transformers, maar een gespecialiseerde LLM in combinatie met een extern evaluatie-/schaakprogramma zou binnenkort een goed alternatief kunnen zijn voor schaaktrainers. DeepMind heeft nog een cool model gemaakt dat een goed voorbeeld is van de combinatie van LLM en een gespecialiseerd AI-model: AlphaGeometry. Het ligt heel dicht bij de Olympische gouden medaillewinnaarstandaard voor meetkundeproblemen, waardoor het AI-redeneren in de wiskunde wordt bevorderd.

6. LLM's zijn nog vers, het vakgebied is erg jong en er is te veel hype die vaak wordt ondersteund door misleidende en verkeerde conclusies. Zoals de auteurs van de ‘Wiskundige ontdekkingen van programmazoekopdrachten met grote taalmodellen’ stellen:

“…voor zover ons bekend toont dit de eerste wetenschappelijke ontdekking – een nieuw stuk verifieerbare kennis over een berucht wetenschappelijk probleem – met behulp van een LLM.” (versnelde preview werd gepubliceerd op 14 december 2023).

7. De clip van Joe Rogan en 2 gasten, getiteld ''I Wasn't Afraid of AI Until I Learned This'' werd door 2,8 miljoen mensen op YouTube bekeken. Een van de gasten zegt dat ChatGPT kan schaken, wat duidelijk niet de waarheid is. Ik kan me gewoon voorstellen hoe dit soort inhoud mensen beïnvloedt, vooral ongeschoolde of emotioneel onstabiele individuen. Niet op een goede manier, dat weet ik zeker.

Concluderend: datawetenschap en softwareontwikkeling zijn gebaseerd op kennis, precisie en het zoeken naar de waarheid. Als datawetenschappers en ontwikkelaars moeten we mensen van waarheid en wijsheid zijn, die de waanzin die door de massamedia over AI wordt geproduceerd, moeten kalmeren en niet moeten aanwakkeren. Transformers, waaronder ChatGPT, hebben een groot potentieel op het gebied van taaltaken, maar ze zijn nog steeds ver verwijderd van AGI. We moeten optimistisch maar correct zijn.

Als richtlijn moeten we ons, voordat we bommen laten vallen, afvragen: wat zou er gebeuren als iemand anders naar mijn uitspraken zou handelen? In wat voor wereld wil jij leven?

Referenties en verder onderzoek

Schaken en Shogi beheersen door zelf te spelen met een algemeen leeralgoritme voor versterking: https://arxiv.org/pdf/1712.01815.pdf
FunSearch: nieuwe ontdekkingen doen in de wiskundige wetenschappen met behulp van grote taalmodellen: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-lingual-models/
Wiskundige ontdekkingen door zoeken naar programma's met grote taalmodellen: https://www.nature.com/articles/s41586-023-06924-6
AlphaGeometry: een AI-systeem op Olympiade-niveau voor geometrie: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
Ik was niet bang voor AI totdat ik dit leerde: https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
Hoe je kunt schaken tegen ChatGPT (en waarom je dat waarschijnlijk niet zou moeten doen): https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
Kan Chat GPT schaken?: https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
Hoe goed is ChatGPT in schaken? (Spoiler: je zult onder de indruk zijn): https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
Schaken en Shogi beheersen door zelf te spelen met een algemeen leeralgoritme voor versterking: https://arxiv.org/pdf/1712.01815.pdf

Nikola Greb codeert al meer dan vier jaar en de afgelopen twee jaar heeft hij zich gespecialiseerd in NLP. Voordat hij zich tot datawetenschap wendde, was hij succesvol in verkoop, HR, schrijven en schaken.