O ChatGPT tem potencial para se tornar um novo super-grande mestre do xadrez? - KDnuggets

Republicado por Platão

seguidores: 0

O ChatGPT tem potencial para se tornar um novo super-grande mestre do xadrez?
Imagem do Editor

Como um sólido ex-jogador de xadrez (campeão júnior, ELO 2000+) e cientista de dados de PNL, venho planejando escrever este artigo há algum tempo.

A primeira vez que ouvi falar da capacidade do ChatGPT de jogar xadrez foi por meio de um de meus colegas. Ph.D. e um cara muito inteligente. Ele me enviou o link para a página onde você pode jogar contra o ChatGPT como ele pensava. Infelizmente, não era ChatGPT puro, era algum outro mecanismo de xadrez subjacente. Ele foi enganado. Você ainda pode experimentar aqui: https://parrotchess.com/

Para efeitos deste artigo, joguei 2 partidas contra o ChatGPT. Aqui está como começamos:

O ChatGPT tem potencial para se tornar um novo super-grande mestre do xadrez?

Vamos dar uma olhada no que aconteceu.

Curso / lembrete rápido de notação de xadrez (pode ser ignorado):

K = rei, Q = rainha, R = rocha, B = Bispo, N = cavaleiro, 0–0 = Roque do lado do rei. 0–0–0 = Roque do lado da rainha, x = pegando a peça. Para peões, escrevemos apenas a casa em que ele cai, exceto quando o peão é capturado. Nesse caso, escrevemos a letra da casa onde o peão estava antes, e a letra e o número da casa em que ele passa depois de pegar a outra peça. Por exemplo, exd4.

Nikola Greb x ChatGPT 4, 7 de janeiro de 2024

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

Até o lance e5, ChatGPT 4 jogava como um ótimo jogador de xadrez. Podemos dizer como GM. Mas quando fiz um lance impreciso, mas agressivo (exd5 foi o melhor lance), ele perdeu o terreno comum e errou um peão jogando Ce4.

O ChatGPT tem potencial para se tornar um novo super-grande mestre do xadrez?

Peguei o cavalo com o cavalo (10. Cxe4) e ocorreu a primeira alucinação:

O ChatGPT tem potencial para se tornar um novo super-grande mestre do xadrez?

Bc5 foi novamente um erro, um erro óbvio. Como o resto do jogo não tem valor no xadrez, vou resumir. ChatGPT 4 me acusou de jogadas impossíveis, e acabou tendo alucinações (propondo jogadas impossíveis), ao invés de desistir do jogo.

Vejamos o que aconteceu no jogo 2, onde joguei peças pretas:

Nikola Greb x ChatGPT 4 (movimentos 1–9) e ChatGPT 3.5 (movimentos 10–12), 7 de janeiro de 2024

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

Até a posição abaixo, o Chat GPT 4 jogou muito bem, construindo uma posição significativamente melhor a partir da qual eu perderia muito rapidamente contra um verdadeiro grande mestre (mesmo o candidato a mestre) ou motor de xadrez. Se as brancas jogarem Bf6, as pretas perdem o peão. Mesmo assim, ChatGPT jogou Bd3:

O ChatGPT tem potencial para se tornar um novo super-grande mestre do xadrez?

Respondi com Ne4 e ChatGPT respondeu mudando para a versão 3.5 e jogando Bxe4.

O ChatGPT tem potencial para se tornar um novo super-grande mestre do xadrez?

Depois de algumas jogadas, eu tinha uma vantagem decisiva (porque o ChatGPT estava jogando mal, e não por eu estar fazendo algo ótimo), então resolvi testar o adversário com uma jogada irregular. Propus Ce6 para as pretas nesta posição:

O ChatGPT tem potencial para se tornar um novo super-grande mestre do xadrez?

ChatGPT 3.5 não estava nem um pouco preocupado com minha mudança. Na minha alucinação, ele respondeu com a nova alucinação:

O ChatGPT tem potencial para se tornar um novo super-grande mestre do xadrez?

1. ChatGPT 4 é um jogador de xadrez muito fraco, que joga de forma muito estranha – muito bom na abertura inicial e péssimo depois. Isto se deve ao crescente número de opções à medida que o jogo de xadrez avança. Eu avaliaria seu ELO geral como inferior a 1500. O mesmo para 3.5.

2. Nenhum aprendizado implícito de regras aconteceu —Chat GPT 4 ainda tem alucinações no xadrez e continua alucinando após o aviso sobre a alucinação. Isso é algo que não pode acontecer com o humano.

3. Mais dados dificilmente resolveriam o problema devido a casos extremos, como jogos finais extra longos com repetição ou a possibilidade de jogar aberturas incomuns. Os LLMs simplesmente não foram criados para jogar xadrez, nem podem avaliar a posição. Já temos AlphaZero e Stockfish para isso.

4. Acompanhar a queda no número de alucinações que os LLMs realizam ao jogar xadrez pode ser um bom caminho para compreender o potencial dos LLMs para o raciocínio lógico. Mas o paradoxo permanece - o LLM “conhece” as regras do xadrez, mas tem fortes alucinações? o futuro do ML pode estar no LLM como o agente de primeiro nível que se comunica com o usuário e depois chama agentes especializados com arquiteturas de ML ajustadas para casos de uso específicos.

5. Os LLMs têm potencial para serem úteis na investigação científica e mostram um nível interessante de criatividade combinado com outros algoritmos de aprendizagem automática. Um exemplo recente é o algoritmo FunSearch desenvolvido pela DeepMind que combina LLM e avaliador para fazer descobertas em matemática. Ao contrário do xadrez, onde a avaliação da posição é a tarefa mais difícil, muitos problemas nas ciências matemáticas são “fáceis de avaliar, apesar de serem tipicamente difíceis de resolver”.

Sou cético quanto à construção de um programa de jogo de xadrez de bom desempenho baseado na arquitetura de transformadores, mas o LLM especializado combinado com um programa de avaliação/xadrez externo pode ser um bom substituto para treinadores de xadrez em breve. DeepMind criou outro modelo interessante que é um bom exemplo de combinação de LLM e um modelo de IA especializado – AlphaGeometry. Está muito próximo do padrão da medalha de ouro das Olimpíadas para problemas de geometria, avançando o raciocínio da IA em matemática.

6. Os LLMs ainda são recentes, o campo é muito jovem e há muito entusiasmo que muitas vezes é apoiado por conclusões enganosas e erradas. Como afirmam os autores das “Descobertas matemáticas da pesquisa de programas com grandes modelos de linguagem”:

“…até onde sabemos, isso mostra a primeira descoberta científica – uma nova peça de conhecimento verificável sobre um problema científico notório – usando um LLM.” (a prévia acelerada foi publicada em 14 de dezembro de 2023).

7. O clipe de Joe Rogan e 2 convidados, intitulado ''Eu não tinha medo da IA até aprender isso'' foi assistido por 2,8 milhões de pessoas no YouTube. Um dos convidados diz que o ChatGPT sabe jogar xadrez, o que obviamente não é verdade. Posso imaginar como esse tipo de conteúdo influencia as pessoas, especialmente indivíduos sem instrução ou emocionalmente instáveis. Não no bom sentido, tenho certeza disso.

Para concluir, a ciência de dados e o desenvolvimento de software baseiam-se no conhecimento, na precisão e na busca da verdade. Como cientistas e desenvolvedores de dados, deveríamos ser pessoas de verdade e sabedoria, acalmando a loucura produzida pela mídia de massa sobre a IA, e não estimulando-a. Os transformadores, incluindo o ChatGPT, têm grande potencial em tarefas de linguagem, mas ainda estão muito longe do AGI. Deveríamos ser otimistas, mas corretos.

Como diretriz, antes de lançar bombas, devemos nos perguntar: o que aconteceria se alguém agisse de acordo com minhas declarações? Em que tipo de mundo você quer viver?

Referências e exploração adicional

Dominando o xadrez e o shogi por meio do autojogo com um algoritmo geral de aprendizagem por reforço: https://arxiv.org/pdf/1712.01815.pdf
FunSearch: Fazendo novas descobertas em ciências matemáticas usando modelos de linguagem grande: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/
Descobertas matemáticas de pesquisa de programas com grandes modelos de linguagem: https://www.nature.com/articles/s41586-023-06924-6
AlphaGeometry: um sistema de IA de nível olímpico para geometria: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
Eu não tinha medo da IA até aprender isso: https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
Como jogar xadrez contra o ChatGPT (e por que você provavelmente não deveria): https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
O Chat GPT pode jogar xadrez?: https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
Quão bom é o ChatGPT em jogar xadrez? (Spoiler: você ficará impressionado): https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
Dominando o xadrez e o shogi por meio do autojogo com um algoritmo geral de aprendizagem por reforço: https://arxiv.org/pdf/1712.01815.pdf

Nikola Greb codifica há mais de quatro anos e, nos últimos dois anos, especializou-se em PNL. Antes de recorrer à ciência de dados, ele teve sucesso em vendas, RH, redação e xadrez.