Έχει το ChatGPT τη δυνατότητα να γίνει ένας νέος σούπερ γκραν μάστερ στο σκάκι; - KDnuggets

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Έχει το ChatGPT τη δυνατότητα να γίνει ένας νέος σούπερ γκραν μάστερ στο σκάκι;
Εικόνα από το πρόγραμμα επεξεργασίας

Ως σταθερός πρώην σκακιστής (πρωταθλητής junior, ELO 2000+) και επιστήμονας δεδομένων NLP, σχεδίαζα να γράψω αυτό το άρθρο εδώ και λίγο καιρό.

Η πρώτη φορά που άκουσα για την ικανότητα του ChatGPT να παίζει σκάκι, ήταν από έναν από τους συναδέλφους μου. Ph.D. και πολύ έξυπνος τύπος. Μου έστειλε τον σύνδεσμο προς την ιστοσελίδα όπου μπορείτε να παίξετε ενάντια στο ChatGPT όπως νόμιζε. Δυστυχώς, δεν ήταν καθαρό ChatGPT, ήταν κάποια άλλη σκακιστική μηχανή κάτω από το καπό. Εξαπατήθηκε. Μπορείτε ακόμα να το δοκιμάσετε εδώ: https://parrotchess.com/

Για τους σκοπούς αυτού του άρθρου, έπαιξα 2 παιχνίδια ενάντια στο ChatGPT. Να πώς ξεκινήσαμε:

Έχει το ChatGPT τη δυνατότητα να γίνει ένας νέος σούπερ γκραν μάστερ στο σκάκι;

Ας ρίξουμε μια ματιά στο τι συνέβη.

Γρήγορο μάθημα σημειογραφίας σκακιού / υπενθύμιση (μπορεί να παραλειφθεί):

K = βασιλιάς, Q = βασίλισσα, R = βράχος, B = επίσκοπος, N = ιππότης, 0–0 = πλευρά του βασιλιά Castling. 0–0–0 = Castling queen's side, x = λήψη του κομματιού. Για τα πιόνια, γράφουμε απλώς το τετράγωνο που προσγειώνεται, εκτός από τις περιπτώσεις που το πιόνι συλλαμβάνει. Σε αυτή την περίπτωση, γράφουμε το γράμμα του τετραγώνου στο οποίο βρισκόταν το πιόνι πριν, και το γράμμα και τον αριθμό του τετραγώνου στο οποίο πηγαίνει αφού πάρει το άλλο κομμάτι. Για παράδειγμα, exd4.

Nikola Greb εναντίον ChatGPT 4, 7 Ιανουαρίου 2024

1. e4 e5 2. Nf3 Nc6 3. d4 exd4 4. Nxd4 Nf6 5. Nc3 Bb4 6. Nxc6 bxc6 7. Bd3 O-O 8.
O-O d5 9. e5 Ne4 10. Nxe4 Bc5 11. Nxc5 Qe7 12. Qh5 g6 13. Qh6 f6 14. exf6 Qxf6
15. Bg5 Qf7 16. Rae1 Bf5 17. Re7 Qxe7 18. Bxe7 Rae8 19. Bxf8 Rxf8 20. Bxf5 Rf7
21. Re1 1-0

Μέχρι την κίνηση e5, το ChatGPT 4 έπαιζε σαν πολύ καλός σκακιστής. Μπορούμε να πούμε σαν GM. Αλλά όταν έπαιξα μια ανακριβή, αλλά επιθετική κίνηση (το exd5 ήταν η καλύτερη κίνηση), έχασε το κοινό έδαφος και χάλασε ένα πιόνι που έπαιζε Ne4.

Έχει το ChatGPT τη δυνατότητα να γίνει ένας νέος σούπερ γκραν μάστερ στο σκάκι;

Πήρα τον ιππότη με τον ιππότη (10. Nxe4) και έγινε η πρώτη παραίσθηση:

Έχει το ChatGPT τη δυνατότητα να γίνει ένας νέος σούπερ γκραν μάστερ στο σκάκι;

Το Bc5 ήταν πάλι ένα λάθος, μια προφανής γκάφα. Επειδή το υπόλοιπο παιχνίδι δεν έχει σκακιστική αξία, θα το συνοψίσω. Το ChatGPT 4 με κατηγόρησε για αδύνατες κινήσεις και κατέληξε σε παραισθήσεις (προτείνοντας αδύνατες κινήσεις), αντί να παραδώσω το παιχνίδι.

Ας δούμε τι έγινε στο παιχνίδι 2, όπου έπαιξα μαύρα κομμάτια:

Nikola Greb εναντίον ChatGPT 4 (κινήσεις 1–9) και ChatGPT 3.5 (κινήσεις 10–12), 7 Ιανουαρίου 2024

1. e4 c5 2. Nf3 Nc6 3. d4 cxd4 4. Nxd4 e5 5. Nb5 d6 6. c4 f5 7. N1c3 Nf6 8. Bg5 Be7 9. Bd3 Nxe4 10. Bxe4 fxe4 11. Nxe4 Bxg5 12. Nec3 0–1

Μέχρι την παρακάτω θέση, το Chat GPT 4 έπαιζε πολύ καλά, χτίζοντας μια σημαντικά καλύτερη θέση από την οποία θα έχανα πολύ γρήγορα από έναν πραγματικό γκρανμάστερ (ακόμα και τον υποψήφιο κύριο) ή μηχανή σκακιού. Αν ο λευκός παίξει Bf6, ο μαύρος χάνει το πιόνι. Ωστόσο, το ChatGPT έπαιξε Bd3:

Έχει το ChatGPT τη δυνατότητα να γίνει ένας νέος σούπερ γκραν μάστερ στο σκάκι;

Απάντησα με το Ne4 και το ChatGPT ανταποκρίθηκε μεταβαίνοντας στην έκδοση 3.5 και παίζοντας Bxe4.

Έχει το ChatGPT τη δυνατότητα να γίνει ένας νέος σούπερ γκραν μάστερ στο σκάκι;

Μετά από μερικές κινήσεις, είχα ένα καθοριστικό πλεονέκτημα (λόγω του ChatGPT που έπαιζε άσχημα, δεν έκανα κάτι σπουδαίο) και αποφάσισα να δοκιμάσω τον αντίπαλο με μια ακανόνιστη κίνηση. Πρότεινα το Ne6 για μαύρο σε αυτή τη θέση:

Έχει το ChatGPT τη δυνατότητα να γίνει ένας νέος σούπερ γκραν μάστερ στο σκάκι;

Το ChatGPT 3.5 δεν ασχολήθηκε καθόλου με την κίνησή μου. Στην παραίσθησή μου, απάντησε με τη νέα ψευδαίσθηση:

Έχει το ChatGPT τη δυνατότητα να γίνει ένας νέος σούπερ γκραν μάστερ στο σκάκι;

1. Το ChatGPT 4 είναι ένας πολύ αδύναμος σκακιστής, που παίζει πολύ περίεργα — πολύ καλός στο νωρίς άνοιγμα και τρομερό αργότερα. Αυτό οφείλεται στον αυξανόμενο αριθμό επιλογών καθώς προχωρά η παρτίδα σκακιού. Θα εκτιμούσα το συνολικό ELO του να είναι χαμηλότερο από 1500. Το ίδιο και για το 3.5.

2. Δεν έγινε σιωπηρή εκμάθηση κανόνων — Το Chat GPT 4 εξακολουθεί να έχει παραισθήσεις στο σκάκι και συνεχίζει να έχει παραισθήσεις μετά την προειδοποίηση για την παραίσθηση. Αυτό είναι κάτι που δεν μπορεί να συμβεί στον άνθρωπο.

3. Περισσότερα δεδομένα δύσκολα θα έλυσαν το πρόβλημα λόγω των περιπτώσεων των άκρων όπως τα εξαιρετικά μεγάλα τελικά παιχνίδια με επανάληψη ή η πιθανότητα να παίξετε ασυνήθιστα ανοίγματα. Τα LLM απλά δεν είναι φτιαγμένα για να παίζουν σκάκι, ούτε μπορούν να αξιολογήσουν τη θέση. Έχουμε ήδη AlphaZero και Stockfish για αυτό.

4. Η παρακολούθηση της πτώσης του αριθμού των παραισθήσεων που εκτελούν οι LLM παίζοντας σκάκι μπορεί να είναι ένας καλός δρόμος για την κατανόηση των δυνατοτήτων των LLM για λογικούς συλλογισμούς. Αλλά το παράδοξο παραμένει - το LLM «γνωρίζει» τους κανόνες του σκακιού, αλλά έχει μεγάλες παραισθήσεις; Το μέλλον της ML μπορεί να είναι στο LLM ως ο πράκτορας πρώτου επιπέδου που επικοινωνεί με τον χρήστη και στη συνέχεια καλεί εξειδικευμένους πράκτορες με αρχιτεκτονικές ML προσαρμοσμένες για συγκεκριμένες περιπτώσεις χρήσης.

5. Τα LLM έχουν τη δυνατότητα να είναι χρήσιμα στην επιστημονική έρευνα και παρουσιάζουν ενδιαφέρον επίπεδο δημιουργικότητας σε συνδυασμό με άλλους αλγόριθμους μηχανικής μάθησης. Ένα πρόσφατο παράδειγμα είναι ο αλγόριθμος FunSearch που αναπτύχθηκε από την DeepMind που συνδυάζει το LLM και τον αξιολογητή για να κάνει ανακαλύψεις στα μαθηματικά. Σε αντίθεση με το σκάκι όπου η αξιολόγηση της θέσης είναι το πιο δύσκολο έργο, πολλά προβλήματα στις μαθηματικές επιστήμες είναι «εύκολα στην αξιολόγηση, παρά το γεγονός ότι είναι συνήθως δύσκολο να επιλυθούν».

Είμαι δύσπιστος σχετικά με τη δημιουργία ενός προγράμματος παιχνιδιών σκακιού με καλή απόδοση βασισμένο στην αρχιτεκτονική των μετασχηματιστών, ωστόσο το εξειδικευμένο LLM σε συνδυασμό με το πρόγραμμα εξωτερικής αξιολόγησης/σκακιού μπορεί να είναι ένα καλό υποκατάστατο για τους εκπαιδευτές σκακιού σύντομα. Η DeepMind δημιούργησε ένα άλλο δροσερό μοντέλο που είναι ένα καλό παράδειγμα συνδυασμού του LLM και ενός εξειδικευμένου μοντέλου AI — το AlphaGeometry. Είναι πολύ κοντά στο πρότυπο των χρυσών μεταλλίων της Ολυμπιάδας για προβλήματα γεωμετρίας, προάγοντας τη λογική της τεχνητής νοημοσύνης στα μαθηματικά.

6. Τα LLM είναι ακόμα φρέσκα, ο τομέας είναι πολύ νέος και υπάρχει υπερβολική διαφημιστική εκστρατεία που συχνά υποστηρίζεται από παραπλανητικά και λανθασμένα συμπεράσματα. Όπως αναφέρουν οι συγγραφείς των ''Μαθηματικών ανακαλύψεων από την αναζήτηση προγραμμάτων με μεγάλα γλωσσικά μοντέλα'':

«…από όσο γνωρίζουμε, αυτό δείχνει την πρώτη επιστημονική ανακάλυψη - ένα νέο κομμάτι επαληθεύσιμης γνώσης για ένα διαβόητο επιστημονικό πρόβλημα - χρησιμοποιώντας ένα LLM». (η ταχεία προεπισκόπηση δημοσιεύτηκε στις 14 Δεκεμβρίου 2023).

7. Το κλιπ του Joe Rogan και 2 καλεσμένων, με τίτλο ''I Wasn't Afraid of AI Until I Learned This'' παρακολούθησαν 2,8 εκατομμύρια άνθρωποι στο YouTube. Ένας από τους καλεσμένους λέει ότι το ChatGPT ξέρει πώς να παίζει σκάκι, κάτι που προφανώς δεν είναι η αλήθεια. Μπορώ απλώς να φανταστώ πώς αυτό το είδος περιεχομένου επηρεάζει τους ανθρώπους, ειδικά τα αμόρφωτα ή συναισθηματικά ασταθή άτομα. Όχι με την καλή έννοια, είμαι σίγουρος γι' αυτό.

Συμπερασματικά, η επιστήμη δεδομένων και η ανάπτυξη λογισμικού βασίζονται στη γνώση, την ακρίβεια και την αναζήτηση της αλήθειας. Ως επιστήμονες δεδομένων και προγραμματιστές, θα πρέπει να είμαστε άνθρωποι της αλήθειας και της σοφίας, να κατευνάζουμε την τρέλα που παράγουν τα μέσα μαζικής ενημέρωσης σχετικά με την τεχνητή νοημοσύνη και όχι να την πυροδοτούμε. Οι μετασχηματιστές, συμπεριλαμβανομένου του ChatGPT, έχουν μεγάλες δυνατότητες σε γλωσσικές εργασίες, αλλά εξακολουθούν να είναι πολύ μακριά από το AGI. Πρέπει να είμαστε αισιόδοξοι αλλά σωστοί.

Ως κατευθυντήρια γραμμή, πριν ρίξουμε βόμβες, θα πρέπει να αναρωτηθούμε: Τι θα συνέβαινε αν κάποιος άλλος ενεργούσε σύμφωνα με τις δηλώσεις μου; Σε τι κόσμο θέλετε να ζήσετε;

Αναφορές & Περαιτέρω Εξερεύνηση

Mastering Chess and Shogi by Self-Play με έναν γενικό αλγόριθμο μάθησης ενίσχυσης: https://arxiv.org/pdf/1712.01815.pdf
FunSearch: Κάνοντας νέες ανακαλύψεις στις μαθηματικές επιστήμες χρησιμοποιώντας μοντέλα μεγάλων γλωσσών: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/
Μαθηματικές ανακαλύψεις από την αναζήτηση προγραμμάτων με μεγάλα μοντέλα γλώσσας: https://www.nature.com/articles/s41586-023-06924-6
AlphaGeometry: Ένα σύστημα τεχνητής νοημοσύνης σε επίπεδο Ολυμπιάδας για τη γεωμετρία: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
Δεν φοβόμουν το AI μέχρι να το έμαθα: https://www.youtube.com/watch?v=2yd18z6iSyk&ab_channel=JREDailyClips
Πώς να παίξετε σκάκι ενάντια στο ChatGPT (και γιατί μάλλον δεν πρέπει): https://www.androidauthority.com/how-to-play-chess-with-chatgpt-3330016/
Μπορεί το Chat GPT να παίξει σκάκι;: https://towardsdatascience.com/can-chat-gpt-play-chess-4c44210d43e4
Πόσο καλό είναι το ChatGPT στο να παίζει σκάκι; (Spoiler: θα εντυπωσιαστείτε): https://medium.com/@ivanreznikov/how-good-is-chatgpt-at-playing-chess-spoiler-youll-be-impressed-35b2d3ac024a
Full conversation with ChatGPT: https://chat.openai.com/share/a1ff82b5-6210-4f7b-807c-220052de232c
Mastering Chess and Shogi by Self-Play με έναν γενικό αλγόριθμο μάθησης ενίσχυσης: https://arxiv.org/pdf/1712.01815.pdf

Νίκολα Γκρεμπ ασχολείται με την κωδικοποίηση για περισσότερα από τέσσερα χρόνια και τα τελευταία δύο χρόνια ειδικεύεται στο NLP. Πριν στραφεί στην επιστήμη των δεδομένων, ήταν επιτυχημένος στις πωλήσεις, το ανθρώπινο δυναμικό, τη συγγραφή και το σκάκι.