ChatGPT a-t-il le potentiel pour devenir un nouveau super grand maître d'échecs ? - KDnuggets

ChatGPT a-t-il le potentiel pour devenir un nouveau super grand maître d'échecs ? – KDnuggets

Nœud source: 3089438

ChatGPT a-t-il le potentiel pour devenir un nouveau super grand maître d'échecs ?
Image de l'éditeur
 

En tant qu'ancien joueur d'échecs solide (champion junior, ELO 2000+) et data scientist PNL, j'avais prévu d'écrire cet article depuis un moment.

La première fois que j'ai entendu parler de la capacité de ChatGPT à jouer aux échecs, c'était par un de mes collègues. doctorat et un gars très intelligent. Il m'a envoyé le lien vers la page Web où vous pouvez jouer contre ChatGPT comme il le pensait. Malheureusement, ce n'était pas du pur ChatGPT, c'était un autre moteur d'échecs sous le capot. Il a été trompé. Vous pouvez toujours l'essayer ici : https://parrotchess.com/

Pour les besoins de cet article, j'ai joué 2 matchs contre le ChatGPT. Voici comment nous avons commencé :

ChatGPT a-t-il le potentiel pour devenir un nouveau super grand maître d'échecs ?

Regardons ce qui s'est passé.

Cours rapide de notation d'échecs / rappel (peut être ignoré) :

K = roi, Q = reine, R = rocher, B = fou, N = chevalier, 0–0 = roque du côté du roi. 0–0–0 = Roque du côté de la reine, x = prendre la pièce. Pour les pions, on écrit simplement la case où ils atterrissent, sauf lorsque le pion capture. Dans ce cas, nous écrivons la lettre de la case où se trouvait le pion auparavant, ainsi que la lettre et le numéro de la case sur laquelle il se dirige après avoir pris l'autre pièce. Par exemple, exd4.

Nikola Greb contre ChatGPT 4, le 7 janvier 2024

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

 

Jusqu'au coup e5, ChatGPT 4 jouait comme un très bon joueur d'échecs. On peut dire comme GM. Mais lorsque j'ai joué un coup imprécis mais agressif (exd5 était le meilleur coup), il a perdu le terrain d'entente et a gaffé un pion jouant Ce4.

ChatGPT a-t-il le potentiel pour devenir un nouveau super grand maître d'échecs ?

J'ai pris le chevalier avec le chevalier (10. Cxe4) et la première hallucination s'est produite :

ChatGPT a-t-il le potentiel pour devenir un nouveau super grand maître d'échecs ?

ChatGPT a-t-il le potentiel pour devenir un nouveau super grand maître d'échecs ?

Fc5 était encore une fois une erreur, une erreur évidente. Puisque le reste du jeu n’a aucune valeur aux échecs, je vais le résumer. ChatGPT 4 m'a accusé de mouvements impossibles, et s'est retrouvé dans des hallucinations (proposition de mouvements impossibles), au lieu d'abandonner la partie.

Voyons ce qui s'est passé dans le jeu 2, où j'ai joué des pièces noires :

Nikola Greb contre ChatGPT 4 (coups 1 à 9) et ChatGPT 3.5 (coups 10 à 12), le 7 janvier 2024

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

 

Jusqu'à la position ci-dessous, Chat GPT 4 jouait très bien, créant une position nettement meilleure à partir de laquelle je perdrais très rapidement contre un vrai grand maître (même le candidat maître) ou un moteur d'échecs. Si les blancs jouent Ff6, les noirs perdent le pion. Pourtant, ChatGPT a joué à Bd3 :

ChatGPT a-t-il le potentiel pour devenir un nouveau super grand maître d'échecs ?

J'ai répondu avec Ne4 et ChatGPT a répondu en passant à la version 3.5 et en jouant à Bxe4.

ChatGPT a-t-il le potentiel pour devenir un nouveau super grand maître d'échecs ?

Après quelques mouvements, j'avais un avantage décisif (à cause du mauvais jeu de ChatGPT et du fait que je ne faisais pas quelque chose de bien), j'ai donc décidé de tester l'adversaire avec un mouvement irrégulier. J'ai proposé Ce6 pour les noirs dans cette position :

ChatGPT a-t-il le potentiel pour devenir un nouveau super grand maître d'échecs ?

ChatGPT 3.5 n'était pas du tout concerné par mon déménagement. A mon hallucination, il a répondu par la nouvelle hallucination :

ChatGPT a-t-il le potentiel pour devenir un nouveau super grand maître d'échecs ?

1. ChatGPT 4 est un joueur d'échecs très faible, qui joue très étrangement : très bon en début d'ouverture et terrible plus tard. Cela est dû au nombre croissant d’options à mesure que le jeu d’échecs progresse. J'évaluerais son ELO global comme étant inférieur à 1500. Idem pour 3.5.

2. Aucun apprentissage implicite des règles n'a eu lieu — Chat GPT 4 hallucine toujours aux échecs et continue d'halluciner après l'avertissement concernant l'hallucination. C'est quelque chose qui ne peut pas arriver à l'humain.

3. Plus de données ne résoudraient guère le problème en raison des cas extrêmes tels que les finales extra longues avec répétition ou la possibilité de jouer des ouvertures inhabituelles. Les LLM ne sont tout simplement pas conçus pour jouer aux échecs et ne peuvent pas non plus évaluer la position. Nous avons déjà AlphaZero et Stockfish pour cela.

4. Suivre la baisse du nombre d'hallucinations produites par les LLM en jouant aux échecs pourrait être une bonne voie pour comprendre le potentiel des LLM en matière de raisonnement logique. Mais le paradoxe demeure : LLM « connaît » les règles des échecs, mais il hallucine lourdement ? l'avenir du ML pourrait être dans le LLM en tant qu'agent de premier niveau qui communique avec l'utilisateur puis appelle des agents spécialisés avec des architectures ML adaptées à des cas d'utilisation particuliers.

5. Les LLM ont le potentiel d’être utiles dans la recherche scientifique et font preuve d’un niveau de créativité intéressant combiné à d’autres algorithmes d’apprentissage automatique. Un exemple récent est l'algorithme FunSearch développé par DeepMind qui combine LLM et évaluateur pour faire des découvertes en mathématiques. Contrairement aux échecs où l'évaluation de la position est la tâche la plus difficile, de nombreux problèmes en sciences mathématiques sont « faciles à évaluer, bien qu'ils soient généralement difficiles à résoudre ».

Je suis sceptique quant à la création d'un programme de jeu d'échecs performant basé sur l'architecture des transformateurs, mais un LLM spécialisé combiné à un programme d'évaluation/d'échecs externe pourrait bientôt être un bon substitut aux entraîneurs d'échecs. DeepMind a créé un autre modèle intéressant qui est un bon exemple de combinaison de LLM et d'un modèle d'IA spécialisé : AlphaGeometry. Il est très proche du standard médaillé d’or des Olympiades pour les problèmes de géométrie, faisant progresser le raisonnement de l’IA en mathématiques.

6. Les LLM sont encore récents, le domaine est très jeune et il y a trop de battage médiatique qui est souvent étayé par des conclusions trompeuses et erronées. Comme le déclarent les auteurs de « Découvertes mathématiques issues de la recherche de programmes avec de grands modèles de langage » :

"... Au meilleur de nos connaissances, cela montre la première découverte scientifique - un nouvel élément de connaissance vérifiable sur un problème scientifique notoire - utilisant un LLM." (l'aperçu accéléré a été publié le 14 décembre 2023).

 

7. Le clip de Joe Rogan et de 2 invités, intitulé « Je n'avais pas peur de l'IA jusqu'à ce que j'apprenne cela » a été regardé par 2,8 millions de personnes sur YouTube. L'un des invités dit que ChatGPT sait jouer aux échecs, ce qui n'est évidemment pas la vérité. Je peux simplement imaginer comment ce type de contenu influence les gens, en particulier les individus sans instruction ou émotionnellement instables. Pas dans le bon sens, j'en suis sûr.

En conclusion, la science des données et le développement de logiciels reposent sur la connaissance, la précision et la recherche de la vérité. En tant que data scientists et développeurs, nous devrions être des gens de vérité et de sagesse, calmant la folie produite par les médias à propos de l’IA, et non l’attiser. Les transformateurs, dont ChatGPT, ont un grand potentiel dans les tâches de langage, mais ils sont encore très loin de l'AGI. Nous devrions être optimistes mais corrects.

À titre indicatif, avant de larguer des bombes, nous devrions nous demander : que se passerait-il si quelqu'un d'autre donnait suite à mes déclarations ? Dans quel genre de monde voulez-vous vivre ?

Références et exploration plus approfondie

  1. Maîtriser les échecs et le shogi par self-play avec un algorithme général d'apprentissage par renforcement : https://arxiv.org/pdf/1712.01815.pdf
  2. FunSearch : Faire de nouvelles découvertes en sciences mathématiques à l'aide de grands modèles linguistiques : https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-lingual-models/
  3. Découvertes mathématiques issues de la recherche de programmes avec de grands modèles de langage : https://www.nature.com/articles/s41586-023-06924-6
  4. AlphaGeometry : un système d'IA de niveau Olympiade pour la géométrie : https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
  5. Je n'avais pas peur de l'IA jusqu'à ce que j'apprenne ceci : https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
  6. Comment jouer aux échecs contre ChatGPT (et pourquoi vous ne devriez probablement pas) : https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
  7. Chat GPT peut-il jouer aux échecs ? : https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
  8. Dans quelle mesure ChatGPT est-il bon pour jouer aux échecs ? (Spoiler : vous serez impressionné) : https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
  9. Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
  10. Maîtriser les échecs et le shogi par self-play avec un algorithme général d'apprentissage par renforcement : https://arxiv.org/pdf/1712.01815.pdf

 
 

Nicolas Greb code depuis plus de quatre ans, et depuis deux ans, il s'est spécialisé en PNL. Avant de se tourner vers la science des données, il a réussi dans les domaines de la vente, des ressources humaines, de l'écriture et des échecs.

Horodatage:

Plus de KDnuggetsGenericName