ChatGPT ha il potenziale per diventare un nuovo super maestro di scacchi? - KDnuggets

Ripubblicato da Platone

Seguaci: 0

ChatGPT ha il potenziale per diventare un nuovo super maestro di scacchi?
Immagine dall'editore

In qualità di ex giocatore di scacchi (campione junior, ELO 2000+) e scienziato dei dati della PNL, era da un po' che avevo intenzione di scrivere questo articolo.

La prima volta che ho sentito parlare della capacità di ChatGPT di giocare a scacchi è stato da uno dei miei colleghi. Dottorato di ricerca e un ragazzo molto intelligente. Mi ha inviato il link alla pagina web dove puoi giocare contro ChatGPT come pensava. Sfortunatamente, non era ChatGPT puro, era qualche altro motore di scacchi sotto il cofano. È stato ingannato. Puoi ancora provarlo qui: https://parrotchess.com/

Ai fini di questo articolo, ho giocato 2 partite contro il ChatGPT. Ecco come abbiamo iniziato:

ChatGPT ha il potenziale per diventare un nuovo super maestro di scacchi?

Diamo un'occhiata a quello che è successo.

Corso/promemoria rapido sulla notazione scacchistica (può essere saltato):

K = re, Q = regina, R = roccia, B = alfiere, N = cavaliere, 0–0 = arrocco dal lato del re. 0–0–0 = lato della Regina dell'arrocco, x = prendere il pezzo. Per i pedoni scriviamo semplicemente la casa in cui atterra, tranne quando il pedone cattura. In tal caso scriviamo la lettera della casa dove prima si trovava il pedone, e la lettera e il numero della casa in cui va dopo aver preso l'altro pezzo. Ad esempio, exd4.

Nikola Greb contro ChatGPT 4, 7 gennaio 2024

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

Fino alla mossa e5, ChatGPT 4 ha giocato come un ottimo giocatore di scacchi. Possiamo dire come GM. Ma quando ho giocato una mossa imprecisa, ma aggressiva (exd5 era la mossa migliore), ha perso il terreno comune e ha commesso un errore con un pedone giocando Ne4.

ChatGPT ha il potenziale per diventare un nuovo super maestro di scacchi?

Ho preso il cavaliere con il cavaliere (10. Nxe4) e si è verificata la prima allucinazione:

ChatGPT ha il potenziale per diventare un nuovo super maestro di scacchi?

Ac5 è stato ancora una volta un errore, un evidente errore. Poiché il resto del gioco non ha valore scacchistico, lo riassumerò. ChatGPT 4 mi ha accusato di mosse impossibili ed è finito in allucinazioni (proponendomi mosse impossibili), invece di arrendermi al gioco.

Vediamo cosa è successo nella partita 2, dove ho giocato con i pezzi neri:

Nikola Greb contro ChatGPT 4 (mosse 1–9) e ChatGPT 3.5 (mosse 10–12), 7 gennaio 2024

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

Fino alla posizione seguente, Chat GPT 4 ha funzionato molto bene, costruendo una posizione significativamente migliore dalla quale avrei perso molto rapidamente contro un vero gran maestro (anche il candidato maestro) o un motore di scacchi. Se il bianco gioca Bf6, il nero perde il pedone. Eppure, ChatGPT ha giocato Bd3:

ChatGPT ha il potenziale per diventare un nuovo super maestro di scacchi?

Ho risposto con Ne4 e ChatGPT ha risposto passando alla versione 3.5 e giocando a Bxe4.

ChatGPT ha il potenziale per diventare un nuovo super maestro di scacchi?

Dopo alcune mosse, avevo un vantaggio decisivo (a causa del fatto che ChatGPT giocava male, non perché avevo fatto qualcosa di eccezionale) quindi ho deciso di mettere alla prova l'avversario con una mossa irregolare. Ho proposto Ne6 per il nero in questa posizione:

ChatGPT ha il potenziale per diventare un nuovo super maestro di scacchi?

ChatGPT 3.5 non si preoccupava affatto della mia mossa. Alla mia allucinazione, ha risposto con la nuova allucinazione:

ChatGPT ha il potenziale per diventare un nuovo super maestro di scacchi?

1. ChatGPT 4 è un giocatore di scacchi molto debole, che gioca in modo molto strano: molto bravo all'inizio e pessimo dopo. Ciò è dovuto al crescente numero di opzioni man mano che la partita a scacchi procede. Valuterei il suo ELO complessivo inferiore a 1500. Lo stesso per 3.5.

2. Non è avvenuto alcun apprendimento implicito delle regole: Chat GPT 4 ha ancora allucinazioni negli scacchi e continua ad avere allucinazioni dopo l'avvertimento sull'allucinazione. Questo è qualcosa che non può accadere all'essere umano.

3. Più dati difficilmente risolverebbero il problema a causa dei casi limite come finali extra lunghi con ripetizione o la possibilità di giocare aperture insolite. Gli LLM semplicemente non sono progettati per giocare a scacchi, né possono valutare la posizione. Abbiamo già AlphaZero e Stockfish per questo.

4. Monitorare il calo del numero di allucinazioni che gli LLM eseguono giocando a scacchi potrebbe essere un buon percorso per comprendere il potenziale degli LLM per il ragionamento logico. Ma il paradosso rimane: LLM “conosce” le regole degli scacchi, ma ha forti allucinazioni? il futuro del ML potrebbe essere in LLM come agente di primo livello che comunica con l'utente e quindi chiama agenti specializzati con architetture ML adattate a casi d'uso particolari.

5. Gli LLM hanno il potenziale per essere utili nella ricerca scientifica e mostrano un interessante livello di creatività combinato con altri algoritmi di apprendimento automatico. Un esempio recente è l'algoritmo FunSearch sviluppato da DeepMind che combina LLM e valutatore per fare scoperte in matematica. Contrariamente agli scacchi, dove la valutazione della posizione è il compito più difficile, molti problemi nelle scienze matematiche sono “facili da valutare, nonostante siano tipicamente difficili da risolvere”.

Sono scettico riguardo alla creazione di un programma di gioco degli scacchi ben performante basato sull'architettura dei trasformatori, tuttavia un LLM specializzato combinato con un programma di valutazione/scacchi esterno potrebbe presto essere un buon sostituto per i formatori di scacchi. DeepMind ha creato un altro modello interessante che è un buon esempio di combinazione di LLM e un modello di intelligenza artificiale specializzato: AlphaGeometry. È molto vicino allo standard della medaglia d'oro delle Olimpiadi per i problemi di geometria, facendo avanzare il ragionamento basato sull'intelligenza artificiale in matematica.

6. Gli LLM sono ancora freschi, il settore è molto giovane e c'è troppa pubblicità spesso supportata da conclusioni fuorvianti e sbagliate. Come affermano gli autori di ''Scoperte matematiche dalla ricerca di programmi con modelli linguistici di grandi dimensioni'':

"... per quanto ne sappiamo, questo mostra la prima scoperta scientifica - un nuovo pezzo di conoscenza verificabile su un famigerato problema scientifico - utilizzando un LLM." (l'anteprima accelerata è stata pubblicata il 14 dicembre 2023).

7. Il clip di Joe Rogan e 2 ospiti, intitolato ''Non avevo paura dell'intelligenza artificiale finché non ho imparato questo'' è stato visto da 2,8 milioni di persone su YouTube. Uno degli ospiti dice che ChatGPT sa giocare a scacchi, il che ovviamente non è la verità. Posso solo immaginare come questo tipo di contenuti influenzi le persone, in particolare gli individui non istruiti o emotivamente instabili. Non in senso positivo, ne sono sicuro.

Per concludere, la scienza dei dati e lo sviluppo di software si basano sulla conoscenza, sulla precisione e sulla ricerca della verità. Come scienziati e sviluppatori di dati, dovremmo essere persone di verità e saggezza, calmando la follia prodotta dai mass media sull’intelligenza artificiale, non accendendola. I trasformatori, incluso ChatGPT, hanno un grande potenziale nei compiti linguistici, ma sono ancora molto lontani dall'AGI. Dovremmo essere ottimisti ma corretti.

Come linea guida, prima di sganciare bombe, dovremmo chiederci: cosa accadrebbe se qualcun altro agisse in base alle mie dichiarazioni? In che tipo di mondo vuoi vivere?

Riferimenti e ulteriori esplorazioni

Padroneggiare gli scacchi e lo shogi giocando da soli con un algoritmo di apprendimento per rinforzo generale: https://arxiv.org/pdf/1712.01815.pdf
FunSearch: fare nuove scoperte nelle scienze matematiche utilizzando modelli linguistici di grandi dimensioni: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-lingual-models/
Scoperte matematiche dalla ricerca di programmi con modelli linguistici di grandi dimensioni: https://www.nature.com/articles/s41586-023-06924-6
AlphaGeometry: un sistema di intelligenza artificiale per la geometria a livello di Olimpiadi: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
Non avevo paura dell'intelligenza artificiale finché non ho imparato questo: https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
Come giocare a scacchi contro ChatGPT (e perché probabilmente non dovresti): https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
Chat GPT può giocare a scacchi?: https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
Quanto è bravo ChatGPT a giocare a scacchi? (Spoiler: rimarrai impressionato): https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
Padroneggiare gli scacchi e lo shogi giocando da soli con un algoritmo di apprendimento per rinforzo generale: https://arxiv.org/pdf/1712.01815.pdf

Nikola Greb programma da più di quattro anni e negli ultimi due anni si è specializzato in PNL. Prima di dedicarsi alla scienza dei dati, ha avuto successo nelle vendite, nelle risorse umane, nella scrittura e negli scacchi.