Kas ChatGPT-l on potentsiaali saada uueks male supersuurmeistriks? - KDnuggets

Taasavaldanud Platon

järgijaid: 0

Kas ChatGPT-l on potentsiaali saada uueks male supersuurmeistriks?
Pilt redaktorist

Kindla endise maletaja (juuniormeister, ELO 2000+) ja NLP andmeteadlasena olen juba mõnda aega plaaninud seda artiklit kirjutada.

The first time I heard about ChatGPT’s ability to play chess, was from one of my colleagues. Ph.D. and a very smart guy. He sent me the link to the webpage where you can play against ChatGPT as he thought. Unfortunately, it wasn’t pure ChatGPT, it was some other chess engine under the hood. He was deceived. You can still try it here: https://parrotchess.com/

Selle artikli jaoks mängisin 2 mängu ChatGPT vastu. Siin on, kuidas me alustasime:

Kas ChatGPT-l on potentsiaali saada uueks male supersuurmeistriks?

Vaatame, mis juhtus.

Kiirmale noodikursus / meeldetuletus (võib vahele jätta):

K = kuningas, Q = kuninganna, R = kivi, B = piiskop, N = rüütel, 0–0 = lossikuninga pool. 0–0–0 = Castling kuninganna pool, x = tüki võtmine. Etturite jaoks kirjutame lihtsalt ruudu, kuhu see langeb, välja arvatud siis, kui ettur lööb. Sel juhul kirjutame selle ruudu tähe, kus ettur oli enne, ja selle ruudu tähe ja numbri, millele see läheb pärast teise nupu võtmist. Näiteks exd4.

Nikola Greb vs. ChatGPT 4, 7. jaanuar 2024

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

Kuni käiguni e5 mängis ChatGPT 4 nagu väga hea maletaja. Võime öelda nagu GM. Kuid kui ma tegin ebatäpset, kuid agressiivset käiku (exd5 oli parim käik), kaotas see ühisosa ja segas Ne4 mängivat etturit.

Kas ChatGPT-l on potentsiaali saada uueks male supersuurmeistriks?

Võtsin ratsu rüütliga (10. Nxe4) ja tekkis esimene hallutsinatsioon:

Kas ChatGPT-l on potentsiaali saada uueks male supersuurmeistriks?

Bc5 oli jälle viga, ilmselge prohmakas. Kuna ülejäänud partiil pole maleväärtust, siis võtan selle kokku. ChatGPT 4 süüdistas mind võimatutes liigutustes ja lõppes mängust loobumise asemel hallutsinatsioonidega (võimatute liigutuste väljapakkumine).

Vaatame, mis juhtus mängus 2, kus ma mängisin musti nuppe:

Nikola Greb vs. ChatGPT 4 (käigud 1–9) ja ChatGPT 3.5 (käigud 10–12), 7. jaanuar 2024

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

Kuni alloleva positsioonini mängis Chat GPT 4 väga hästi, ehitades oluliselt parema positsiooni, kust kaotaksin väga kiiresti tõelise suurmeistri (isegi meistrikandidaadi) või malemootori vastu. Kui valge mängib Bf6, kaotab must etturi. ChatGPT mängis aga Bd3:

Kas ChatGPT-l on potentsiaali saada uueks male supersuurmeistriks?

Vastasin Ne4-ga ja ChatGPT vastas versioonile 3.5 üleminekuga ja Bxe4 mängimisega.

Kas ChatGPT-l on potentsiaali saada uueks male supersuurmeistriks?

Peale paari käiku oli minul otsustav eelis (ChatGPT halva mängu tõttu, mitte mina millegi suurepärase tegemise tõttu), mistõttu otsustasin vastase proovile panna ebaregulaarse käiguga. Ma pakkusin Ne6 mustale selles asendis:

Kas ChatGPT-l on potentsiaali saada uueks male supersuurmeistriks?

ChatGPT 3.5 wasn’t concerned with my move at all. On my hallucination, it responded with the new hallucination:

Kas ChatGPT-l on potentsiaali saada uueks male supersuurmeistriks?

1. ChatGPT 4 on väga nõrk maletaja, kes mängib väga kummaliselt — alguses väga hea ja hiljem kohutav. See on tingitud malemängu edenedes kasvavast valikute arvust. Hindaksin tema üldist ELO-d alla 1500. Sama ka 3.5 kohta.

2. Reeglite kaudset õppimist ei toimunud – Chat GPT 4 hallutsineerib endiselt males ja jätkab hallutsinatsioonid pärast hallutsinatsiooni hoiatamist. See on midagi, mida inimesega juhtuda ei saa.

3. Rohkem andmeid vaevalt lahendaks probleemi servajuhtumite tõttu, nagu ülipikad lõpumängud kordustega või ebatavaliste avade mängimise võimalus. LLM-id pole lihtsalt male mängimiseks loodud ega saa positsiooni hinnata. Meil on selleks juba AlphaZero ja Stockfish.

4. LLM-ide malemängus esinevate hallutsinatsioonide arvu languse jälgimine võib olla hea viis LLM-ide potentsiaali mõistmiseks loogilises arutluskäigus. Kuid paradoks jääb - LLM "teab" male reegleid, kuid hallutsineerib tugevalt? ML-i tulevik võib olla LLM-is kui esimese taseme agentis, mis suhtleb kasutajaga ja kutsub seejärel spetsiaalseid agente, mille ML-arhitektuur on kohandatud konkreetsete kasutusjuhtude jaoks.

5. LLM-idel on potentsiaal olla kasulikud teadusuuringutes ja näidata huvitaval tasemel loovust koos teiste masinõppe algoritmidega. Hiljutine näide on DeepMindi välja töötatud FunSearchi algoritm, mis ühendab LLM-i ja hindaja, et teha matemaatikas avastusi. Vastupidiselt malele, kus positsiooni hindamine on kõige raskem ülesanne, on matemaatikateadustes paljusid probleeme "lihtne hinnata, hoolimata sellest, et neid on tavaliselt raske lahendada".

Olen skeptiline trafoarhitektuuril põhineva hästitoimiva maleprogrammi loomise suhtes, kuid spetsiaalne LLM koos välise hindamise/maleprogrammiga võib peagi olla hea asendus maletreeneritele. DeepMind lõi veel ühe laheda mudeli, mis on hea näide LLM-i ja spetsiaalse tehisintellekti mudeli – AlphaGeometry – kombineerimisest. See on väga lähedane geomeetriaülesannete olümpiaadi kuldmedalistide standardile, edendades tehisintellekti arutluskäiku matemaatikas.

6. LLM-id on endiselt värsked, valdkond on väga noor ja liiga palju reklaami, mida sageli toetavad eksitavad ja valed järeldused. Nagu väidavad raamatu "Matemaatilised avastused programmiotsingust suurte keelemudelitega" autorid:

“…to the best of our knowledge, this shows the first scientific discovery — a new piece of verifiable knowledge about a notorious scientific problem — using an LLM.” (accelerated preview was published on the 14 of December 2023).

7. Joe Rogani ja 2 külalise klippi pealkirjaga "I Wasn't Afraid of AI Until I Learned This" vaatas YouTube'is 2,8 miljonit inimest. Üks külalistest ütleb, et ChatGPT teab, kuidas malet mängida, mis ilmselgelt pole tõsi. Kujutan ette, kuidas selline sisu inimesi, eriti harimatuid või emotsionaalselt ebastabiilseid inimesi mõjutab. Mitte heas mõttes, ma olen selles kindel.

Kokkuvõtteks võib öelda, et andmeteadus ja tarkvaraarendus on üles ehitatud teadmistele, täpsusele ja tõe otsimisele. Andmeteadlaste ja arendajatena peaksime olema tõe ja tarkuse inimesed, rahustama massimeedia tekitatud hullust tehisintellekti kohta, mitte seda üles laskma. Transformeritel, sealhulgas ChatGPT-l, on keeleülesannetes suur potentsiaal, kuid nad on AGI-st siiski väga kaugel. Peaksime olema optimistlikud, kuid õiged.

Enne pommide viskamist peaksime juhisena endalt küsima: mis juhtuks, kui keegi teine käituks minu väidete põhjal? Millises maailmas sa elada tahad?

Viited ja edasine uurimine

Male ja šogi valdamine iseseisvalt mängides üldise tugevdamise õppealgoritmiga: https://arxiv.org/pdf/1712.01815.pdf
FunSearch: Uute avastuste tegemine matemaatikateadustes suurte keelemudelite abil: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/
Matemaatilised avastused programmiotsingust suurte keelemudelitega: https://www.nature.com/articles/s41586-023-06924-6
AlphaGeometry: Olümpiaaditasemel AI süsteem geomeetria jaoks: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
Ma ei kartnud tehisintellekti enne, kui ma seda õppisin: https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
Kuidas mängida malet ChatGPT vastu (ja miks te ilmselt ei peaks): https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
Kas vestlus GPT-ga saab malet mängida?: https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
Kui hea on ChatGPT malet mängides? (Spoiler: teile avaldab muljet): https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
Male ja šogi valdamine iseseisvalt mängides üldise tugevdamise õppealgoritmiga: https://arxiv.org/pdf/1712.01815.pdf

Nikola Greb on kodeerinud rohkem kui neli aastat ja viimased kaks aastat on ta spetsialiseerunud NLP-le. Enne andmeteaduse poole pöördumist oli ta edukas müügis, personalitöös, kirjutamises ja males.