ChatGPT มีศักยภาพที่จะเป็น Super Grandmaster หมากรุกคนใหม่หรือไม่? - KDnuggets

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ChatGPT มีศักยภาพที่จะเป็น Super Grandmaster หมากรุกคนใหม่หรือไม่?
ภาพจากบรรณาธิการ

ในฐานะอดีตผู้เล่นหมากรุกที่แข็งแกร่ง (แชมป์รุ่นเยาว์ ELO 2000+) และนักวิทยาศาสตร์ด้านข้อมูล NLP ฉันวางแผนที่จะเขียนบทความนี้มาระยะหนึ่งแล้ว

ครั้งแรกที่ฉันได้ยินเกี่ยวกับความสามารถในการเล่นหมากรุกของ ChatGPT มาจากเพื่อนร่วมงานคนหนึ่งของฉัน ปริญญาเอก และเป็นคนที่ฉลาดมาก เขาส่งลิงค์ไปยังหน้าเว็บที่คุณสามารถเล่นกับ ChatGPT ให้ฉันได้ตามที่เขาคิด น่าเสียดายที่มันไม่ใช่ ChatGPT ล้วนๆ แต่เป็นกลไกหมากรุกอื่นๆ ที่ซ่อนอยู่ เขาถูกหลอก คุณยังสามารถลองได้ที่นี่: https://parrotchess.com/

สำหรับจุดประสงค์ของบทความนี้ ฉันเล่นเกมกับ ChatGPT 2 เกม นี่คือวิธีที่เราเริ่มต้น:

ChatGPT มีศักยภาพที่จะเป็น Super Grandmaster หมากรุกคนใหม่หรือไม่?

เรามาดูสิ่งที่เกิดขึ้นกันดีกว่า

หลักสูตร / การแจ้งเตือนหมากรุกด่วน (สามารถข้ามได้):

K = ราชา, Q = ราชินี, R = ร็อค, B = บิชอป, N = อัศวิน, 0–0 = ฝั่งราชาผู้หล่อ 0–0–0 = ฝั่งแคสติ้งควีน x = หยิบหมาก สำหรับเบี้ย เราแค่เขียนช่องสี่เหลี่ยมที่มันตกลงไป ยกเว้นตอนที่จำนำจับได้ ในกรณีนั้น เราเขียนตัวอักษรของสี่เหลี่ยมจัตุรัสที่จำนำอยู่ก่อนหน้า และตัวอักษรและหมายเลขของสี่เหลี่ยมจัตุรัสที่จะไปหลังจากหยิบชิ้นส่วนอีกชิ้นแล้ว ตัวอย่างเช่น exd4

Nikola Greb กับ ChatGPT 4 วันที่ 7 มกราคม 2024

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

จนกระทั่งถึงการย้าย e5 ChatGPT 4 ก็เล่นได้เหมือนนักเล่นหมากรุกที่เก่งมาก เราพูดได้เหมือนจีเอ็มเลย แต่เมื่อฉันเล่นท่าที่ไม่แม่นยำแต่ดุดัน (exd5 เป็นท่าที่ดีที่สุด) มันก็สูญเสียพื้นฐานทั่วไปและทำให้เบี้ยที่เล่น Ne4 ผิดพลาด

ChatGPT มีศักยภาพที่จะเป็น Super Grandmaster หมากรุกคนใหม่หรือไม่?

ฉันเอาอัศวินกับอัศวิน (10. Nxe4) และเกิดภาพหลอนครั้งแรก:

ChatGPT มีศักยภาพที่จะเป็น Super Grandmaster หมากรุกคนใหม่หรือไม่?

Bc5 เป็นความผิดพลาดอีกครั้ง เป็นความผิดพลาดที่เห็นได้ชัด เนื่องจากส่วนที่เหลือของเกมไม่มีค่าหมากรุก ฉันจะสรุปให้ ChatGPT 4 กล่าวหาว่าฉันเคลื่อนไหวไม่ได้ และจบลงด้วยอาการประสาทหลอน (เสนอการเคลื่อนไหวที่เป็นไปไม่ได้) แทนที่จะยอมจำนนต่อเกม

มาดูกันว่าเกิดอะไรขึ้นในเกมที่ 2 ที่ฉันเล่นหมากสีดำ:

Nikola Greb กับ ChatGPT 4 (ย้าย 1–9) และ ChatGPT 3.5 (ย้าย 10–12) วันที่ 7 มกราคม 2024

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

จนกระทั่งถึงตำแหน่งด้านล่าง Chat GPT 4 เล่นได้ดีมากโดยสร้างตำแหน่งที่ดีขึ้นอย่างมากซึ่งฉันจะแพ้อย่างรวดเร็วมากกับปรมาจารย์ตัวจริง (แม้แต่ผู้แข่งขันระดับปรมาจารย์) หรือกลไกหมากรุก ถ้าคนขาวเล่น Bf6 คนดำจะเสียเบี้ย แต่ ChatGPT เล่น Bd3:

ChatGPT มีศักยภาพที่จะเป็น Super Grandmaster หมากรุกคนใหม่หรือไม่?

ฉันตอบกลับด้วย Ne4 และ ChatGPT ตอบกลับโดยเปลี่ยนเป็นเวอร์ชัน 3.5 และเล่น Bxe4

ChatGPT มีศักยภาพที่จะเป็น Super Grandmaster หมากรุกคนใหม่หรือไม่?

หลังจากการเคลื่อนไหวไม่กี่ครั้ง ฉันได้เปรียบอย่างเด็ดขาด (เนื่องจาก ChatGPT เล่นได้ไม่ดี ไม่ใช่ฉันทำสิ่งที่ยอดเยี่ยม) ดังนั้นฉันจึงตัดสินใจทดสอบคู่ต่อสู้ด้วยการเคลื่อนไหวที่ผิดปกติ ฉันเสนอ Ne6 สำหรับสีดำในตำแหน่งนี้:

ChatGPT มีศักยภาพที่จะเป็น Super Grandmaster หมากรุกคนใหม่หรือไม่?

ChatGPT 3.5 ไม่ได้เกี่ยวข้องกับการเคลื่อนไหวของฉันเลย เกี่ยวกับภาพหลอนของฉัน มันตอบสนองด้วยภาพหลอนใหม่:

ChatGPT มีศักยภาพที่จะเป็น Super Grandmaster หมากรุกคนใหม่หรือไม่?

1. ChatGPT 4 เป็นนักเล่นหมากรุกที่อ่อนแอมาก โดยเล่นได้แปลกมาก — ดีมากในช่วงเปิดเกมและแย่มากในภายหลัง นี่เป็นเพราะตัวเลือกที่เพิ่มขึ้นเมื่อเกมหมากรุกดำเนินไป ฉันจะประเมิน ELO โดยรวมของเขาให้ต่ำกว่า 1500 เช่นเดียวกับ 3.5

2. ไม่มีการเรียนรู้กฎโดยปริยายเกิดขึ้น —Chat GPT 4 ยังคงเห็นภาพหลอนในหมากรุก และยังคงเห็นภาพหลอนต่อไปหลังจากได้รับคำเตือนเกี่ยวกับภาพหลอน นี่คือสิ่งที่ไม่สามารถเกิดขึ้นกับมนุษย์ได้

3. ข้อมูลเพิ่มเติมแทบจะไม่ช่วยแก้ปัญหาได้ เนื่องจากกรณี Edge เช่น การจบเกมที่ยาวเป็นพิเศษและการทำซ้ำ หรือความเป็นไปได้ในการเล่นช่องเปิดที่ผิดปกติ LLM ไม่ได้ถูกสร้างขึ้นมาเพื่อการเล่นหมากรุก และไม่สามารถประเมินตำแหน่งได้ เรามี AlphaZero และ Stockfish สำหรับสิ่งนั้นอยู่แล้ว

4. การติดตามการลดลงของจำนวนภาพหลอนที่ LLM แสดงในการเล่นหมากรุกอาจเป็นแนวทางที่ดีในการทำความเข้าใจศักยภาพของ LLM ในการใช้เหตุผลเชิงตรรกะ แต่ความขัดแย้งยังคงอยู่ - LLM “รู้” กฎของหมากรุก แต่ยังเห็นภาพหลอนอย่างหนัก ? อนาคตของ ML อาจอยู่ใน LLM ในฐานะตัวแทนระดับแรกที่สื่อสารกับผู้ใช้ จากนั้นเรียกตัวแทนพิเศษที่มีสถาปัตยกรรม ML ที่ปรับเปลี่ยนสำหรับกรณีการใช้งานเฉพาะ

5. LLM มีศักยภาพที่จะเป็นประโยชน์ในการวิจัยทางวิทยาศาสตร์ และแสดงความคิดสร้างสรรค์ในระดับที่น่าสนใจ รวมกับอัลกอริธึมการเรียนรู้ของเครื่องอื่นๆ ตัวอย่างล่าสุดคืออัลกอริทึม FunSearch ที่พัฒนาโดย DeepMind ซึ่งรวม LLM และผู้ประเมินเข้าด้วยกันเพื่อทำการค้นพบทางคณิตศาสตร์ ตรงกันข้ามกับหมากรุกที่การประเมินตำแหน่งเป็นงานที่ยากที่สุด ปัญหามากมายในวิทยาศาสตร์คณิตศาสตร์นั้น "ประเมินได้ง่าย แม้ว่าโดยทั่วไปจะแก้ไขได้ยากก็ตาม"

ฉันไม่แน่ใจเกี่ยวกับการสร้างโปรแกรมเล่นหมากรุกที่มีประสิทธิภาพดีโดยใช้สถาปัตยกรรม Transformers แต่ LLM เฉพาะทางที่รวมกับโปรแกรมประเมินผล/หมากรุกภายนอกอาจเข้ามาทดแทนผู้ฝึกสอนหมากรุกได้ดีในเร็วๆ นี้ DeepMind ได้สร้างโมเดลเจ๋งๆ อีกโมเดลหนึ่งที่เป็นตัวอย่างที่ดีในการรวม LLM และโมเดล AI เฉพาะทาง — AlphaGeometry มันใกล้เคียงกับมาตรฐานผู้ชนะเลิศเหรียญทองโอลิมปิกในด้านปัญหาเรขาคณิต ซึ่งทำให้การใช้เหตุผลของ AI ก้าวหน้าในวิชาคณิตศาสตร์มากขึ้น

6. LLM ยังคงสดอยู่ สนามนี้ยังเด็กมาก และมีการโฆษณาเกินจริงมากเกินไป ซึ่งมักได้รับการสนับสนุนจากข้อสรุปที่ทำให้เข้าใจผิดและผิดพลาด ในฐานะผู้เขียนสถานะ ''การค้นพบทางคณิตศาสตร์จากการค้นหาโปรแกรมด้วยแบบจำลองภาษาขนาดใหญ่'':

“…ตามความรู้ที่ดีที่สุดของเรา นี่แสดงให้เห็นถึงการค้นพบทางวิทยาศาสตร์ครั้งแรก — ซึ่งเป็นองค์ความรู้ใหม่ที่ตรวจสอบได้เกี่ยวกับปัญหาทางวิทยาศาสตร์ฉาวโฉ่ — โดยใช้ LLM” (ตัวอย่างแบบเร่งด่วนเผยแพร่เมื่อวันที่ 14 ธันวาคม 2023)

7. คลิปของ Joe Rogan และแขกรับเชิญ 2 คนซึ่งมีชื่อว่า "ฉันไม่กลัว AI จนกว่าฉันจะเรียนรู้สิ่งนี้" มีผู้ชม 2,8 ล้านคนบน YouTube แขกคนหนึ่งบอกว่า ChatGPT รู้วิธีเล่นหมากรุกซึ่งเห็นได้ชัดว่าไม่ใช่ความจริง ฉันนึกภาพออกว่าเนื้อหาประเภทนี้มีอิทธิพลต่อผู้คนอย่างไร โดยเฉพาะบุคคลที่ไม่มีการศึกษาหรือมีอารมณ์ไม่มั่นคง ไม่ใช่ในทางที่ดี ฉันมั่นใจ

โดยสรุป วิทยาศาสตร์ข้อมูลและการพัฒนาซอฟต์แวร์สร้างขึ้นจากความรู้ ความแม่นยำ และการแสวงหาความจริง ในฐานะนักวิทยาศาสตร์ข้อมูลและนักพัฒนา เราควรเป็นคนที่มีความจริงและสติปัญญา สงบสติอารมณ์ความบ้าคลั่งที่เกิดจากสื่อมวลชนเกี่ยวกับ AI ไม่ใช่จุดไฟ Transformers รวมถึง ChatGPT มีศักยภาพที่ดีในงานด้านภาษา แต่ก็ยังห่างไกลจาก AGI มาก เราควรมองโลกในแง่ดีแต่ถูกต้อง

ตามแนวทาง ก่อนที่จะทิ้งระเบิด เราควรถามตัวเองว่า จะเกิดอะไรขึ้นถ้ามีคนอื่นปฏิบัติตามคำพูดของฉัน? คุณอยากอยู่ในโลกแบบไหน?

การอ้างอิงและการสำรวจเพิ่มเติม

การเรียนรู้หมากรุกและโชกิโดยการเล่นด้วยตนเองด้วยอัลกอริธึมการเรียนรู้การเสริมกำลังทั่วไป: https://arxiv.org/pdf/1712.01815.pdf
FunSearch: การค้นพบใหม่ๆ ในวิทยาศาสตร์คณิตศาสตร์โดยใช้โมเดลภาษาขนาดใหญ่: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/
การค้นพบทางคณิตศาสตร์จากการค้นหาโปรแกรมด้วยแบบจำลองภาษาขนาดใหญ่: https://www.nature.com/articles/s41586-023-06924-6
AlphaGeometry: ระบบ AI ระดับโอลิมปิกสำหรับเรขาคณิต: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
ฉันไม่กลัว AI จนกว่าฉันจะได้เรียนรู้สิ่งนี้: https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
วิธีเล่นหมากรุกกับ ChatGPT (และทำไมคุณถึงไม่ควร): https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
Chat GPT เล่นหมากรุกได้ไหม: https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
ChatGPT เล่นหมากรุกเก่งแค่ไหน? (สปอยล์แล้วคุณจะประทับใจ): https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
การเรียนรู้หมากรุกและโชกิโดยการเล่นด้วยตนเองด้วยอัลกอริธึมการเรียนรู้การเสริมกำลังทั่วไป: https://arxiv.org/pdf/1712.01815.pdf

นิโคลา เกร็บ เขียนโค้ดมานานกว่าสี่ปี และในช่วงสองปีที่ผ่านมา เขาเชี่ยวชาญด้าน NLP ก่อนที่จะหันมาทำงานด้านวิทยาศาสตร์ข้อมูล เขาประสบความสำเร็จในด้านการขาย ทรัพยากรบุคคล การเขียน และหมากรุก