Επίλυση ενός μυστηρίου μηχανικής μάθησης

Επίλυση ενός μυστηρίου μηχανικής μάθησης

Κόμβος πηγής: 1944875
07 Φεβρουαρίου 2023 (Ειδήσεις Nanowerk) Μεγάλα γλωσσικά μοντέλα όπως το GPT-3 του OpenAI είναι τεράστια νευρωνικά δίκτυα που μπορούν να δημιουργήσουν κείμενο που μοιάζει με άνθρωπο, από ποίηση μέχρι κώδικα προγραμματισμού. Αυτά τα μοντέλα μηχανικής μάθησης, που εκπαιδεύονται χρησιμοποιώντας θησαυρούς δεδομένων Διαδικτύου, λαμβάνουν ένα μικρό κομμάτι κειμένου εισαγωγής και στη συνέχεια προβλέπουν το κείμενο που είναι πιθανό να ακολουθήσει. Αλλά δεν είναι μόνο αυτό που μπορούν να κάνουν αυτά τα μοντέλα. Οι ερευνητές εξερευνούν ένα περίεργο φαινόμενο γνωστό ως μάθηση εντός πλαισίου, στο οποίο ένα μεγάλο γλωσσικό μοντέλο μαθαίνει να ολοκληρώνει μια εργασία αφού δει μόνο μερικά παραδείγματα — παρά το γεγονός ότι δεν είχε εκπαιδευτεί για αυτήν την εργασία. Για παράδειγμα, κάποιος θα μπορούσε να τροφοδοτήσει το μοντέλο με πολλές παραδειγματικές προτάσεις και τα συναισθήματά του (θετικά ή αρνητικά), στη συνέχεια να το ζητήσει με μια νέα πρόταση και το μοντέλο μπορεί να δώσει το σωστό συναίσθημα. Συνήθως, ένα μοντέλο μηχανικής μάθησης όπως το GPT-3 θα πρέπει να επανεκπαιδευτεί με νέα δεδομένα για αυτή τη νέα εργασία. Κατά τη διάρκεια αυτής της εκπαιδευτικής διαδικασίας, το μοντέλο ενημερώνει τις παραμέτρους του καθώς επεξεργάζεται νέες πληροφορίες για να μάθει την εργασία. Αλλά με την εκμάθηση εντός πλαισίου, οι παράμετροι του μοντέλου δεν ενημερώνονται, επομένως φαίνεται ότι το μοντέλο μαθαίνει μια νέα εργασία χωρίς να μάθει τίποτα απολύτως. Επιστήμονες από το MIT, την Google Research και το Πανεπιστήμιο του Στάνφορντ προσπαθούν να ξετυλίξουν αυτό το μυστήριο. Μελέτησαν μοντέλα που μοιάζουν πολύ με μεγάλα γλωσσικά μοντέλα για να δουν πώς μπορούν να μάθουν χωρίς να ενημερώσουν τις παραμέτρους. Τα θεωρητικά αποτελέσματα των ερευνητών δείχνουν ότι αυτά τα τεράστια μοντέλα νευρωνικών δικτύων είναι ικανά να περιέχουν μικρότερα, απλούστερα γραμμικά μοντέλα θαμμένα μέσα τους. Το μεγάλο μοντέλο θα μπορούσε στη συνέχεια να εφαρμόσει έναν απλό αλγόριθμο εκμάθησης για να εκπαιδεύσει αυτό το μικρότερο, γραμμικό μοντέλο για να ολοκληρώσει μια νέα εργασία, χρησιμοποιώντας μόνο πληροφορίες που περιέχονται ήδη στο μεγαλύτερο μοντέλο. Οι παράμετροί του παραμένουν σταθερές. Ένα σημαντικό βήμα προς την κατανόηση των μηχανισμών πίσω από τη μάθηση εντός πλαισίου, αυτή η έρευνα ανοίγει την πόρτα για περισσότερη εξερεύνηση γύρω από τους αλγόριθμους μάθησης που μπορούν να εφαρμόσουν αυτά τα μεγάλα μοντέλα, λέει ο Ekin Akyürek, πτυχιούχος επιστήμης υπολογιστών και επικεφαλής συγγραφέας μιας εργασίας (“What learning algorithm is in-context learning? Investigations with linear models”) εξερευνώντας αυτό το φαινόμενο. Με την καλύτερη κατανόηση της μάθησης εντός πλαισίου, οι ερευνητές θα μπορούσαν να επιτρέψουν στα μοντέλα να ολοκληρώσουν νέες εργασίες χωρίς την ανάγκη δαπανηρής επανεκπαίδευσης. «Συνήθως, αν θέλετε να βελτιώσετε αυτά τα μοντέλα, πρέπει να συλλέξετε δεδομένα για συγκεκριμένο τομέα και να κάνετε κάποια περίπλοκη μηχανική. Αλλά τώρα μπορούμε απλώς να το τροφοδοτήσουμε με μια εισαγωγή, πέντε παραδείγματα, και επιτυγχάνει αυτό που θέλουμε. Επομένως, η μάθηση εντός πλαισίου είναι ένα αρκετά συναρπαστικό φαινόμενο», λέει ο Akyürek. Μαζί με τον Akyürek στην εργασία είναι ο Dale Schuurmans, ένας ερευνητής στο Google Brain και καθηγητής πληροφορικής στο Πανεπιστήμιο της Αλμπέρτα. καθώς και οι ανώτεροι συγγραφείς Jacob Andreas, το X Consortium Assistant Professor στο Τμήμα Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών του MIT και μέλος του MIT Computer Science and Artificial Intelligence Laboratory (CSAIL)· Tengyu Ma, επίκουρος καθηγητής πληροφορικής και στατιστικής στο Stanford. και ο Danny Zhou, κύριος επιστήμονας και διευθυντής έρευνας στο Google Brain. Η έρευνα θα παρουσιαστεί στο International Conference on Learning Representations.

Ένα μοντέλο μέσα σε ένα μοντέλο

Στην ερευνητική κοινότητα της μηχανικής μάθησης, πολλοί επιστήμονες έχουν καταλήξει να πιστεύουν ότι τα μεγάλα γλωσσικά μοντέλα μπορούν να εκτελούν εκμάθηση εντός πλαισίου λόγω του τρόπου με τον οποίο εκπαιδεύονται, λέει ο Akyürek. Για παράδειγμα, το GPT-3 έχει εκατοντάδες δισεκατομμύρια παραμέτρους και εκπαιδεύτηκε διαβάζοντας τεράστιες λωρίδες κειμένου στο διαδίκτυο, από άρθρα της Wikipedia έως δημοσιεύσεις στο Reddit. Έτσι, όταν κάποιος δείχνει τα παραδείγματα μοντέλων μιας νέας εργασίας, πιθανότατα έχει ήδη δει κάτι πολύ παρόμοιο επειδή το σύνολο δεδομένων εκπαίδευσης περιλάμβανε κείμενο από δισεκατομμύρια ιστότοπους. Επαναλαμβάνει μοτίβα που έχει δει κατά τη διάρκεια της εκπαίδευσης, αντί να μαθαίνει να εκτελεί νέες εργασίες. Ο Akyürek υπέθεσε ότι οι μαθητές εντός πλαισίου δεν ταιριάζουν απλώς με μοτίβα που είχαν δει προηγουμένως, αλλά αντίθετα μαθαίνουν πραγματικά να εκτελούν νέες εργασίες. Αυτός και άλλοι είχαν πειραματιστεί δίνοντας σε αυτά τα μοντέλα προτροπές χρησιμοποιώντας συνθετικά δεδομένα, τα οποία δεν μπορούσαν να έχουν δει πουθενά πριν, και διαπίστωσαν ότι τα μοντέλα μπορούσαν ακόμα να μάθουν από μερικά μόνο παραδείγματα. Ο Akyürek και οι συνεργάτες του σκέφτηκαν ότι ίσως αυτά τα μοντέλα νευρωνικών δικτύων έχουν μέσα τους μικρότερα μοντέλα μηχανικής μάθησης που τα μοντέλα μπορούν να εκπαιδεύσουν για να ολοκληρώσουν μια νέα εργασία. «Αυτό θα μπορούσε να εξηγήσει σχεδόν όλα τα μαθησιακά φαινόμενα που έχουμε δει με αυτά τα μεγάλα μοντέλα», λέει. Για να ελέγξουν αυτήν την υπόθεση, οι ερευνητές χρησιμοποίησαν ένα μοντέλο νευρωνικού δικτύου που ονομάζεται μετασχηματιστής, το οποίο έχει την ίδια αρχιτεκτονική με το GPT-3, αλλά είχε εκπαιδευτεί ειδικά για μάθηση εντός περιβάλλοντος. Εξερευνώντας την αρχιτεκτονική αυτού του μετασχηματιστή, απέδειξαν θεωρητικά ότι μπορεί να γράψει ένα γραμμικό μοντέλο μέσα στις κρυφές του καταστάσεις. Ένα νευρωνικό δίκτυο αποτελείται από πολλά επίπεδα διασυνδεδεμένων κόμβων που επεξεργάζονται δεδομένα. Οι κρυφές καταστάσεις είναι τα επίπεδα μεταξύ των επιπέδων εισόδου και εξόδου. Οι μαθηματικές αξιολογήσεις τους δείχνουν ότι αυτό το γραμμικό μοντέλο είναι γραμμένο κάπου στα πρώτα στρώματα του μετασχηματιστή. Ο μετασχηματιστής μπορεί στη συνέχεια να ενημερώσει το γραμμικό μοντέλο εφαρμόζοντας απλούς αλγόριθμους εκμάθησης. Στην ουσία, το μοντέλο προσομοιώνει και εκπαιδεύει μια μικρότερη εκδοχή του εαυτού του.

Διερευνώντας τα κρυμμένα στρώματα

Οι ερευνητές διερεύνησαν αυτή την υπόθεση χρησιμοποιώντας πειράματα ανίχνευσης, όπου έψαξαν στα κρυφά στρώματα του μετασχηματιστή για να προσπαθήσουν να ανακτήσουν μια συγκεκριμένη ποσότητα. «Σε αυτή την περίπτωση, προσπαθήσαμε να ανακτήσουμε την πραγματική λύση στο γραμμικό μοντέλο και μπορούσαμε να δείξουμε ότι η παράμετρος είναι γραμμένη στις κρυφές καταστάσεις. Αυτό σημαίνει ότι το γραμμικό μοντέλο βρίσκεται κάπου εκεί», λέει. Βασιζόμενοι σε αυτή τη θεωρητική εργασία, οι ερευνητές μπορεί να είναι σε θέση να επιτρέψουν σε έναν μετασχηματιστή να εκτελεί μάθηση εντός περιβάλλοντος προσθέτοντας μόνο δύο επίπεδα στο νευρωνικό δίκτυο. Υπάρχουν ακόμη πολλές τεχνικές λεπτομέρειες που πρέπει να επεξεργαστούν πριν αυτό είναι δυνατό, προειδοποιεί ο Akyürek, αλλά θα μπορούσε να βοηθήσει τους μηχανικούς να δημιουργήσουν μοντέλα που μπορούν να ολοκληρώσουν νέες εργασίες χωρίς την ανάγκη επανεκπαίδευσης με νέα δεδομένα. Προχωρώντας προς τα εμπρός, ο Akyürek σχεδιάζει να συνεχίσει την εξερεύνηση της μάθησης εντός πλαισίου με συναρτήσεις που είναι πιο σύνθετες από τα γραμμικά μοντέλα που μελέτησαν σε αυτήν την εργασία. Θα μπορούσαν επίσης να εφαρμόσουν αυτά τα πειράματα σε μεγάλα γλωσσικά μοντέλα για να δουν εάν οι συμπεριφορές τους περιγράφονται επίσης από απλούς αλγόριθμους εκμάθησης. Επιπλέον, θέλει να εμβαθύνει στους τύπους δεδομένων προκατάρτισης που μπορούν να επιτρέψουν τη μάθηση εντός του πλαισίου. «Με αυτό το έργο, οι άνθρωποι μπορούν τώρα να οραματιστούν πώς αυτά τα μοντέλα μπορούν να μάθουν από τα υποδείγματα. Έτσι, ελπίζω ότι θα αλλάξει τις απόψεις ορισμένων ανθρώπων σχετικά με τη μάθηση εντός πλαισίου», λέει ο Akyürek. «Αυτά τα μοντέλα δεν είναι τόσο χαζά όσο νομίζουν οι άνθρωποι. Δεν απομνημονεύουν απλώς αυτές τις εργασίες. Μπορούν να μάθουν νέα καθήκοντα και έχουμε δείξει πώς μπορεί να γίνει αυτό».

Σφραγίδα ώρας:

Περισσότερα από Νανοχόκ