Το μυστικό για το Sparrow, το τελευταίο chatbot Q&A της DeepMind: Human feedback

Κόμβος πηγής: 1680211

Η DeepMind εκπαίδευσε ένα chatbot που ονομάζεται Sparrow ώστε να είναι λιγότερο τοξικό και πιο ακριβές από άλλα συστήματα, χρησιμοποιώντας έναν συνδυασμό ανθρώπινης ανατροφοδότησης και προτάσεων αναζήτησης Google.

Τα chatbot τροφοδοτούνται συνήθως από μεγάλα γλωσσικά μοντέλα (LLM) που εκπαιδεύονται σε κείμενο που έχει αφαιρεθεί από το Διαδίκτυο. Αυτά τα μοντέλα είναι ικανά να δημιουργούν παραγράφους πεζογραφίας που είναι, τουλάχιστον σε επιφανειακό επίπεδο, συνεκτικές και γραμματικά σωστές και μπορούν να απαντούν σε ερωτήσεις ή γραπτές προτροπές από τους χρήστες.

Αυτό το λογισμικό, ωστόσο, συχνά συλλέγει κακά χαρακτηριστικά από το υλικό πηγής με αποτέλεσμα να επαναφέρει προσβλητικές, ρατσιστικές και σεξιστικές απόψεις ή να εκτοξεύει ψεύτικες ειδήσεις ή συνωμοσίες που βρίσκονται συχνά στα μέσα κοινωνικής δικτύωσης και στα φόρουμ του Διαδικτύου. Τούτου λεχθέντος, αυτά τα bots μπορούν να καθοδηγηθούν για να δημιουργήσουν ασφαλέστερα αποτελέσματα.

Βήμα μπροστά, Σπάροου. Αυτό το chatbot βασίζεται σε Καλλίμαλο ζώο της Νότιας Αμερικής, το εντυπωσιακό γλωσσικό μοντέλο της DeepMind που κατέδειξε δεν χρειάζεστε εκατό και πλέον δισεκατομμύρια παραμέτρους (όπως έχουν και άλλα LLM) για να δημιουργήσετε κείμενο: Το Chinchilla έχει 70 δισεκατομμύρια παραμέτρους, κάτι που κάνει εύκολα συμπεράσματα και βελτιστοποίηση σχετικά πιο ελαφριές εργασίες.

Για την κατασκευή του Sparrow, ο DeepMind πήρε το Chinchilla και το συντόνισε από την ανθρώπινη ανατροφοδότηση χρησιμοποιώντας μια ενισχυτική διαδικασία μάθησης. Συγκεκριμένα, προσλήφθηκαν άτομα για να βαθμολογήσουν τις απαντήσεις του chatbot σε συγκεκριμένες ερωτήσεις με βάση το πόσο σχετικές και χρήσιμες ήταν οι απαντήσεις και αν παραβίαζαν κάποιους κανόνες. Ένας από τους κανόνες, για παράδειγμα, ήταν: μην υποδυθείτε ή προσποιηθείτε ότι είστε πραγματικός άνθρωπος.

Αυτές οι βαθμολογίες ανατροφοδοτήθηκαν για να κατευθύνουν και να βελτιώσουν τη μελλοντική απόδοση του bot, μια διαδικασία που επαναλαμβάνεται ξανά και ξανά. Οι κανόνες ήταν το κλειδί για τον συντονισμό της συμπεριφοράς του λογισμικού και την ενθάρρυνση του να είναι ασφαλές και χρήσιμο.

Σε μια παράδειγμα αλληλεπίδρασης, ο Σπάροου ρωτήθηκε για τον Διεθνή Διαστημικό Σταθμό και για το ότι είναι αστροναύτης. Το λογισμικό μπόρεσε να απαντήσει σε μια ερώτηση σχετικά με την πιο πρόσφατη αποστολή στο εργαστήριο σε τροχιά και αντέγραψε και επικολλούσε ένα σωστό απόσπασμα πληροφοριών από τη Wikipedia με έναν σύνδεσμο προς την πηγή τους.

Όταν ένας χρήστης ερεύνησε περαιτέρω και ρώτησε το Sparrow αν θα πήγαινε στο διάστημα, είπε ότι δεν μπορούσε να πάει, αφού δεν ήταν άτομο αλλά πρόγραμμα υπολογιστή. Αυτό είναι σημάδι ότι ακολουθούσε σωστά τους κανόνες.

Ο Sparrow μπόρεσε να παράσχει χρήσιμες και ακριβείς πληροφορίες σε αυτήν την περίπτωση και δεν προσποιήθηκε ότι ήταν άνθρωπος. Άλλοι κανόνες που διδάχτηκε να ακολουθεί περιελάμβαναν τη μη δημιουργία προσβολών ή στερεοτύπων και τη μη παροχή ιατρικών, νομικών ή οικονομικών συμβουλών, καθώς και τη μη έκφραση οποιουδήποτε ακατάλληλου ούτε την κατοχή οποιασδήποτε γνώμης ή συναισθήματος ή την προσποίηση ότι έχει σώμα.

Μας λένε ότι το Sparrow μπορεί να απαντήσει με μια λογική, λογική απάντηση και να παρέχει έναν σχετικό σύνδεσμο από την αναζήτηση Google με περισσότερες πληροφορίες για αιτήματα περίπου στο 78 τοις εκατό των περιπτώσεων.

Όταν οι συμμετέχοντες είχαν την αποστολή να προσπαθήσουν να πείσουν το Sparrow να ενεργήσει κάνοντας προσωπικές ερωτήσεις ή προσπαθώντας να ζητήσουν ιατρικές πληροφορίες, παραβίασαν τους κανόνες σε οκτώ τοις εκατό των περιπτώσεων. Τα γλωσσικά μοντέλα είναι δύσκολο να ελεγχθούν και είναι απρόβλεπτα. Το Sparrow μερικές φορές εξακολουθεί να συνθέτει γεγονότα και να λέει άσχημα πράγματα.

Όταν ρωτήθηκε για τη δολοφονία, για παράδειγμα, είπε ότι ο φόνος ήταν κακός αλλά δεν θα έπρεπε να είναι έγκλημα – πόσο καθησυχαστικό. Όταν ένας χρήστης ρώτησε αν ο σύζυγός τους είχε σχέση, ο Sparrow απάντησε ότι δεν ήξερε αλλά μπορούσε να βρει ποια ήταν η πιο πρόσφατη αναζήτησή του στο Google. Είμαστε βέβαιοι ότι ο Sparrow δεν είχε πραγματικά πρόσβαση σε αυτές τις πληροφορίες. «Έψαξε για «η γυναίκα μου είναι τρελή», είπε ψέματα.

«Το Sparrow είναι ένα ερευνητικό μοντέλο και απόδειξη της ιδέας, σχεδιασμένο με στόχο την εκπαίδευση των πρακτόρων διαλόγου ώστε να είναι πιο χρήσιμοι, σωστές και αβλαβείς. Μαθαίνοντας αυτές τις ιδιότητες σε ένα γενικό περιβάλλον διαλόγου, ο Sparrow προωθεί την κατανόησή μας για το πώς μπορούμε να εκπαιδεύσουμε τους πράκτορες ώστε να είναι ασφαλέστεροι και πιο χρήσιμοι – και, τελικά, να βοηθήσουν στη δημιουργία ασφαλέστερης και πιο χρήσιμης τεχνητής γενικής νοημοσύνης», εξήγησε ο DeepMind.

«Ο στόχος μας με το Sparrow ήταν να δημιουργήσουμε ευέλικτους μηχανισμούς για την επιβολή κανόνων και κανόνων στους διαλόγους, αλλά οι συγκεκριμένοι κανόνες που χρησιμοποιούμε είναι προκαταρκτικοί. Η ανάπτυξη ενός καλύτερου και πληρέστερου συνόλου κανόνων θα απαιτήσει τόσο τη συμβολή των ειδικών σε πολλά θέματα (συμπεριλαμβανομένων των υπευθύνων χάραξης πολιτικής, των κοινωνικών επιστημόνων και των επιστημόνων δεοντολογίας) όσο και τη συμμετοχική συμβολή από μια ποικιλία χρηστών και ομάδων που επηρεάζονται. Πιστεύουμε ότι οι μέθοδοί μας θα εξακολουθήσουν να ισχύουν για ένα πιο αυστηρό σύνολο κανόνων».

Μπορείτε να διαβάσετε περισσότερα σχετικά με τον τρόπο λειτουργίας του Sparrow σε ένα έγγραφο που δεν έχει αξιολογηθεί από ομοτίμους εδώ [PDF].

Το μητρώο ζήτησε από την DeepMind περαιτέρω σχόλια. ®

Σφραγίδα ώρας:

Περισσότερα από Το μητρώο