ChatGPT는 새로운 체스 슈퍼 그랜드마스터가 될 가능성이 있나요? - KDnuggets

플라톤에 의해 재발행

팔로워 : 0

ChatGPT는 새로운 체스 슈퍼 그랜드마스터가 될 가능성이 있나요?
편집자의 이미지

나는 탄탄한 전직 체스 선수(주니어 챔피언, ELO 2000+)이자 NLP 데이터 과학자로서 한동안 이 글을 쓸 계획이었습니다.

The first time I heard about ChatGPT’s ability to play chess, was from one of my colleagues. Ph.D. and a very smart guy. He sent me the link to the webpage where you can play against ChatGPT as he thought. Unfortunately, it wasn’t pure ChatGPT, it was some other chess engine under the hood. He was deceived. You can still try it here: https://parrotchess.com/

이 기사의 목적을 위해 나는 ChatGPT를 상대로 2개의 게임을 플레이했습니다. 우리가 시작한 방법은 다음과 같습니다.

ChatGPT는 새로운 체스 슈퍼 그랜드마스터가 될 가능성이 있나요?

무슨 일이 있었는지 살펴 보겠습니다.

빠른 체스 표기법 강좌/알림(건너뛸 수 있음):

K = 왕, Q = 여왕, R = 바위, B = 비숍, N = 기사, 0–0 = 캐슬링 왕 측. 0–0–0 = 캐슬링 퀸 측, x = 조각 가져오기. 폰의 경우, 폰이 캡처할 때를 제외하고는 그것이 착지한 사각형만 씁니다. 그 경우에는 폰이 있던 칸의 글자를 쓰고, 다른 말을 잡은 후에 폰이 가는 칸의 글자와 번호를 씁니다. 예를 들어 exd4입니다.

Nikola Greb 대 ChatGPT 4, 7년 2024월 XNUMX일

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

이동 e5까지 ChatGPT 4는 매우 훌륭한 체스 플레이어처럼 플레이했습니다. GM처럼 말할 수 있습니다. 하지만 부정확하지만 공격적인 수를 사용했을 때(exd5가 가장 좋은 수였습니다) Ne4를 플레이하는 폰에게 실수를 범했습니다.

ChatGPT는 새로운 체스 슈퍼 그랜드마스터가 될 가능성이 있나요?

나는 기사 (10.Nxe4)와 함께 기사를 데려갔고 첫 번째 환각이 일어났습니다.

ChatGPT는 새로운 체스 슈퍼 그랜드마스터가 될 가능성이 있나요?

Bc5는 또다시 실수이자 명백한 실수였습니다. 나머지 게임에는 체스 가치가 없으므로 요약하겠습니다. ChatGPT 4는 저를 불가능한 움직임으로 비난했고 결국 게임을 포기하는 대신 환각(불가능한 움직임 제안)에 빠졌습니다.

제가 검은 말을 플레이한 게임 2에서 어떤 일이 일어났는지 살펴보겠습니다.

Nikola Greb 대 ChatGPT 4(1~9 이동) 및 ChatGPT 3.5(10~12 이동), 7년 2024월 XNUMX일

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

아래 위치까지 Chat GPT 4는 매우 잘 플레이하여 실제 그랜드마스터(마스터 후보도 포함) 또는 체스 엔진에 대해 매우 빠르게 패배할 수 있는 훨씬 더 나은 위치를 구축했습니다. 백이 Bf6을 플레이하면 흑이 폰을 잃습니다. 그러나 ChatGPT는 Bd3를 재생했습니다.

ChatGPT는 새로운 체스 슈퍼 그랜드마스터가 될 가능성이 있나요?

나는 Ne4로 응답했고 ChatGPT는 버전 3.5로 전환하고 Bxe4를 재생하여 응답했습니다.

ChatGPT는 새로운 체스 슈퍼 그랜드마스터가 될 가능성이 있나요?

몇 번의 수 끝에 결정적인 이점이 있었기 때문에(내가 대단한 일을 한 것이 아니라 ChatGPT의 플레이가 나빴기 때문에) 불규칙한 수로 상대를 테스트하기로 결정했습니다. 나는 이 위치에 검정색 Ne6을 제안했습니다.

ChatGPT는 새로운 체스 슈퍼 그랜드마스터가 될 가능성이 있나요?

ChatGPT 3.5 wasn’t concerned with my move at all. On my hallucination, it responded with the new hallucination:

ChatGPT는 새로운 체스 슈퍼 그랜드마스터가 될 가능성이 있나요?

1. ChatGPT 4는 매우 약한 체스 플레이어로, 매우 이상하게 플레이합니다. 초반에는 매우 훌륭했지만 나중에는 형편없었습니다. 이는 체스 게임이 진행됨에 따라 옵션의 수가 증가하기 때문입니다. 나는 그의 전체 ELO가 1500보다 낮다고 평가합니다. 3.5도 마찬가지입니다.

2. 규칙에 대한 암묵적인 학습이 발생하지 않았습니다. Chat GPT 4는 여전히 체스에서 환각을 보이고, 환각에 대한 경고 후에도 계속 환각을 보입니다. 이는 인간에게는 일어날 수 없는 일이다.

3. 더 많은 데이터는 반복이 포함된 매우 긴 최종 게임이나 특이한 오프닝 플레이 가능성과 같은 극단적인 경우로 인해 문제를 거의 해결하지 못합니다. LLM은 체스를 두기 위해 만들어진 것이 아니며 위치를 평가할 수도 없습니다. 우리는 이미 이를 위한 AlphaZero와 Stockfish를 보유하고 있습니다.

4. LLM이 체스를 둘 때 수행하는 환각 횟수의 감소를 추적하는 것은 논리적 추론에 대한 LLM의 잠재력을 이해하는 좋은 경로가 될 수 있습니다. 그러나 역설은 여전히 남아 있습니다. LLM은 체스의 규칙을 "알지만" 심한 환각을 느낍니다. ML의 미래는 사용자와 통신한 다음 특정 사용 사례에 맞게 조정된 ML 아키텍처를 사용하여 특수 에이전트를 호출하는 첫 번째 수준 에이전트인 LLM에 있을 수 있습니다.

5. LLM은 과학 연구에 유용할 가능성이 있으며 다른 기계 학습 알고리즘과 결합하여 흥미로운 수준의 창의성을 보여줍니다. 최근 사례로는 LLM과 평가자를 결합하여 수학에서 발견을 수행하는 DeepMind에서 개발한 FunSearch 알고리즘이 있습니다. 지위를 평가하는 것이 가장 어려운 과제인 체스와는 달리, 수학 과학의 많은 문제는 "일반적으로 해결하기 어렵지만 평가하기 쉽습니다".

나는 트랜스포머 아키텍처를 기반으로 성능이 뛰어난 체스 게임 프로그램을 구축하는 데 회의적이지만 외부 평가/체스 프로그램과 결합된 전문 LLM이 곧 체스 트레이너를 대신할 수 있는 좋은 대안이 될 수 있습니다. DeepMind는 LLM과 특수 AI 모델을 결합한 좋은 예인 AlphaGeometry라는 또 다른 멋진 모델을 만들었습니다. 기하학 문제에 대한 올림피아드 금메달리스트 표준에 매우 가깝고 수학 분야의 AI 추론을 발전시킵니다.

6. LLM은 여전히 신선하고 해당 분야가 매우 젊으며 종종 오해의 소지가 있고 잘못된 결론으로 뒷받침되는 과장된 내용이 너무 많습니다. '대규모 언어 모델을 사용한 프로그램 검색의 수학적 발견''의 저자는 다음과 같이 말합니다.

“…to the best of our knowledge, this shows the first scientific discovery — a new piece of verifiable knowledge about a notorious scientific problem — using an LLM.” (accelerated preview was published on the 14 of December 2023).

7. 조 로건(Joe Rogan)과 게스트 2명이 제작한 ''이 사실을 배우기 전까지는 AI가 두렵지 않았습니다''라는 제목의 클립은 YouTube에서 2,8만 명이 시청했습니다. 손님 중 한 명은 ChatGPT가 체스를 두는 방법을 알고 있다고 말하는데 이는 분명히 사실이 아닙니다. 이런 종류의 콘텐츠가 사람들, 특히 교육을 받지 못했거나 감정적으로 불안정한 사람들에게 어떤 영향을 미치는지 상상할 수 있습니다. 좋은 방법은 아니지만 나는 그것에 대해 확신합니다.

결론적으로, 데이터 과학 및 소프트웨어 개발은 지식, 정확성 및 진실 추구를 기반으로 합니다. 데이터 과학자이자 개발자로서 우리는 AI에 대한 대중 매체의 광기를 자극하는 것이 아니라 진정시키는 진실과 지혜의 사람이 되어야 합니다. ChatGPT를 포함한 Transformers는 언어 작업에 큰 잠재력을 가지고 있지만 여전히 AGI와는 거리가 멀습니다. 우리는 낙관적이어야 하지만 정확해야 합니다.

지침으로서, 폭탄을 투하하기 전에 우리는 스스로에게 다음과 같이 자문해 보아야 합니다. 다른 사람이 내 말에 따라 행동한다면 어떤 일이 일어날 것인가? 당신은 어떤 세상에 살고 싶나요?

참고 자료 및 추가 조사

일반 강화 학습 알고리즘을 사용한 셀프 플레이로 체스와 장기 마스터하기: https://arxiv.org/pdf/1712.01815.pdf
FunSearch: 대규모 언어 모델을 사용하여 수학 과학에서 새로운 발견: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-언어-models/
대규모 언어 모델을 사용한 프로그램 검색을 통한 수학적 발견: https://www.nature.com/articles/s41586-023-06924-6
AlphaGeometry: 기하학을 위한 올림피아드 수준의 AI 시스템: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
나는 이것을 배우기 전까지는 AI를 두려워하지 않았습니다: https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
ChatGPT를 상대로 체스를 두는 방법(그리고 하지 말아야 할 이유): https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
GPT 채팅으로 체스를 둘 수 있나요?: https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
ChatGPT는 체스를 두는 데 얼마나 좋은가요? (스포일러: 감동받으실 겁니다): https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
일반 강화 학습 알고리즘을 사용한 셀프 플레이로 체스와 장기 마스터하기: https://arxiv.org/pdf/1712.01815.pdf