Μια γλώσσα AI που μόλις έμαθε μέσα από τα μάτια και τα αυτιά ενός μικρού παιδιού

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Ο Sam ήταν έξι μηνών όταν έβαλε για πρώτη φορά μια ελαφριά κάμερα στο μέτωπό του.

Για τον επόμενο ενάμιση χρόνο, ο φωτογραφικός φακός απαθανάτισε αποσπάσματα από τη ζωή του. Σερνόταν γύρω από τα κατοικίδια της οικογένειας, έβλεπε τους γονείς του να μαγειρεύουν και έκλαψε στην μπροστινή βεράντα με τη γιαγιά. Όλο αυτό το διάστημα η κάμερα κατέγραφε όλα όσα άκουγε.

Αυτό που ακούγεται σαν ένα χαριτωμένο βίντεο στο σπίτι είναι στην πραγματικότητα μια τολμηρή ιδέα: Μπορεί η τεχνητή νοημοσύνη να μάθει γλώσσα σαν παιδί; Τα αποτελέσματα θα μπορούσαν επίσης να αποκαλύψουν πώς τα παιδιά αποκτούν γρήγορα γλώσσα και έννοιες σε νεαρή ηλικία.

Μια νέα μελέτη in Επιστήμη περιγράφει πώς οι ερευνητές χρησιμοποίησαν τις ηχογραφήσεις του Sam για να εκπαιδεύσουν ένα AI ώστε να κατανοεί τη γλώσσα. Με μόνο ένα μικρό μέρος της εμπειρίας ζωής ενός παιδιού σε διάστημα ενός έτους, η τεχνητή νοημοσύνη ήταν σε θέση να κατανοήσει βασικές έννοιες - για παράδειγμα, μια μπάλα, μια πεταλούδα ή έναν κουβά.

Η τεχνητή νοημοσύνη, που ονομάζεται Child's View for Contrastive Learning (CVCL), μιμείται κατά προσέγγιση τον τρόπο που μαθαίνουμε ως νήπια, αντιστοιχίζοντας την όραση με τον ήχο. Είναι μια πολύ διαφορετική προσέγγιση από αυτή που ακολουθούν μεγάλα γλωσσικά μοντέλα όπως αυτά πίσω από το ChatGPT ή τον Bard. Η εκπληκτική ικανότητα αυτών των μοντέλων να δημιουργούν δοκίμια, ποίηση ή ακόμα και σενάρια podcast έχει ενθουσιάσει τον κόσμο. Πρέπει όμως να αφομοιώσουν τρισεκατομμύρια λέξεις από μια μεγάλη ποικιλία ειδήσεων, σεναρίων και βιβλίων για να αναπτύξουν αυτές τις δεξιότητες.

Τα παιδιά, αντίθετα, μαθαίνουν με πολύ λιγότερη συμβολή και γενικεύουν γρήγορα τις γνώσεις τους καθώς μεγαλώνουν. Οι επιστήμονες αναρωτιόντουσαν εδώ και καιρό εάν η τεχνητή νοημοσύνη μπορεί να συλλάβει αυτές τις ικανότητες μόνο με καθημερινές εμπειρίες.

«Δείχνουμε, για πρώτη φορά, ότι ένα νευρωνικό δίκτυο εκπαιδευμένο σε αυτήν την αναπτυξιακά ρεαλιστική εισροή από ένα μόνο παιδί μπορεί να μάθει να συνδέει λέξεις με οπτικά αντίστοιχά τους», ο συγγραφέας της μελέτης Δρ. Wai Keen Vong στο Κέντρο Επιστήμης Δεδομένων του NYU. δήλωσε σε δελτίο Τύπου σχετικά με την έρευνα.

Παιδικό παιχνίδι

Τα παιδιά απορροφούν εύκολα τις λέξεις και το νόημά τους από την καθημερινή εμπειρία.

Σε ηλικία μόλις έξι μηνών, αρχίζουν να συνδέουν τις λέξεις με αυτό που βλέπουν - για παράδειγμα, ένα στρογγυλό φουσκωτό πράγμα είναι μια «μπάλα». Μέχρι την ηλικία των δύο ετών, γνωρίζουν περίπου 300 λέξεις και τις έννοιές τους.

Οι επιστήμονες έχουν συζητήσει εδώ και καιρό πώς συμβαίνει αυτό. Μια θεωρία λέει ότι τα παιδιά μαθαίνουν να ταιριάζουν αυτό που βλέπουν με αυτό που ακούνε. Ένας άλλος προτείνει ότι η εκμάθηση γλωσσών απαιτεί μια ευρύτερη εμπειρία του κόσμου, όπως η κοινωνική αλληλεπίδραση και η ικανότητα λογικής.

Είναι δύσκολο να ξεχωρίσεις αυτές τις ιδέες με τα παραδοσιακά γνωστικά τεστ σε νήπια. Αλλά μπορεί να λάβουμε μια απάντηση εκπαιδεύοντας μια τεχνητή νοημοσύνη μέσα από τα μάτια και τα αυτιά ενός παιδιού.

M3GAN;

Η νέα μελέτη αξιοποίησε έναν πλούσιο πόρο βίντεο που ονομάζεται SAYCam, το οποίο περιλαμβάνει δεδομένα που συλλέχθηκαν από τρία παιδιά μεταξύ 6 και 32 μηνών, χρησιμοποιώντας κάμερες τύπου GoPro, δεμένες στο μέτωπό τους.

Δύο φορές την εβδομάδα, οι κάμερες κατέγραφαν περίπου μία ώρα βίντεο και ήχου καθώς θήλαζαν, σέρνονταν και έπαιζαν. Όλος ο ηχητικός διάλογος μεταγράφηκε σε «εκφωνήσεις»—λέξεις ή προτάσεις που ειπώθηκαν πριν αλλάξει ο ομιλητής ή η συνομιλία. Το αποτέλεσμα είναι ένας πλούτος δεδομένων πολυμέσων από την οπτική γωνία των μωρών και των νηπίων.

Για το νέο σύστημα, η ομάδα σχεδίασε δύο νευρωνικά δίκτυα με έναν «κριτή» να τα συντονίζει. Κάποιος μετέφρασε γραφικά πρώτου προσώπου σε ποιον και τι είναι μια σκηνή - είναι μια μαμά που μαγειρεύει; Οι άλλοι αποκρυπτογράφησαν λέξεις και νοήματα από τις ηχογραφήσεις.

Στη συνέχεια, τα δύο συστήματα συσχετίστηκαν χρονικά, έτσι η τεχνητή νοημοσύνη έμαθε να συσχετίζει σωστά οπτικά στοιχεία με λέξεις. Για παράδειγμα, η τεχνητή νοημοσύνη έμαθε να αντιστοιχίζει μια εικόνα ενός μωρού με τις λέξεις "Κοίτα, υπάρχει ένα μωρό" ή μια εικόνα μιας μπάλας γιόγκα με "Ουάου, αυτή είναι μια μεγάλη μπάλα". Με την εκπαίδευση, σταδιακά έμαθε να διαχωρίζει την έννοια της μπάλας γιόγκα από ένα μωρό.

«Αυτό παρέχει στο μοντέλο μια ένδειξη για το ποιες λέξεις πρέπει να συσχετιστούν με ποια αντικείμενα», είπε ο Vong.

Στη συνέχεια, η ομάδα εκπαίδευσε το AI σε βίντεο από περίπου ενάμιση χρόνο της ζωής του Sam. Μαζί, ανήλθε σε πάνω από 600,000 καρέ βίντεο, σε συνδυασμό με 37,500 μεταγραφές. Αν και οι αριθμοί ακούγονται μεγάλοι, είναι περίπου μόνο το ένα τοις εκατό της καθημερινής ζωής του Sam σε εγρήγορση και τα φιστίκια σε σύγκριση με τον όγκο των δεδομένων που χρησιμοποιούνται για την εκπαίδευση μεγάλων γλωσσικών μοντέλων.

Baby AI σε άνοδο

Για να δοκιμάσει το σύστημα, η ομάδα προσάρμοσε ένα κοινό γνωστικό τεστ που χρησιμοποιείται για τη μέτρηση των γλωσσικών ικανοτήτων των παιδιών. Έδειξαν στο AI τέσσερις νέες εικόνες - μια γάτα, μια κούνια, μια μπάλα και ένα γκαζόν - και ρώτησαν ποια ήταν η μπάλα.

Συνολικά, το AI επέλεξε τη σωστή εικόνα περίπου στο 62 τοις εκατό του χρόνου. Η απόδοση σχεδόν ταίριαζε με έναν αλγόριθμο αιχμής που εκπαιδεύτηκε σε 400 εκατομμύρια ζεύγη εικόνων και κειμένου από τον Ιστό - τάξεις μεγέθους περισσότερα δεδομένα από αυτά που χρησιμοποιήθηκαν για την εκπαίδευση της τεχνητής νοημοσύνης στη μελέτη. Διαπίστωσαν ότι η σύνδεση εικόνων βίντεο με ήχο ήταν ζωτικής σημασίας. Όταν η ομάδα ανακάτεψε τα καρέ βίντεο και τις σχετικές εκφράσεις τους, το μοντέλο κατέρρευσε εντελώς.

Η τεχνητή νοημοσύνη θα μπορούσε επίσης να «σκέφτεται» έξω από το κουτί και να γενικεύει σε νέες καταστάσεις.

Σε μια άλλη δοκιμή, εκπαιδεύτηκε στην οπτική γωνία του Σαμ για ένα εικονογραφημένο βιβλίο, όπως είπε ο γονέας του, «Είναι μια πάπια και μια πεταλούδα». Αργότερα, σήκωσε ένα παιχνίδι πεταλούδα όταν τον ρώτησαν: «Μπορείς να κάνεις την πεταλούδα;» Όταν αμφισβητήθηκε με πολύχρωμες εικόνες πεταλούδων - αυτές που η τεχνητή νοημοσύνη δεν είχε ξαναδεί - εντόπισε τρία στα τέσσερα παραδείγματα για "πεταλούδα" με ακρίβεια άνω του 80%.

Δεν έχουν όλες οι έννοιες των λέξεων την ίδια βαθμολογία. Για παράδειγμα, το «κουτάλι» ήταν ένας αγώνας. Αξίζει όμως να τονίσουμε ότι, σαν ένα σκληρό reCAPTCHA, οι εικόνες της προπόνησης ήταν δύσκολο να αποκρυπτογραφηθούν ακόμη και για έναν άνθρωπο.

Αυξανόμενοι πόνοι

Η Το AI βασίζεται στις πρόσφατες εξελίξεις στην πολυτροπική μηχανική μάθηση, το οποίο συνδυάζει κείμενο, εικόνες, ήχο ή βίντεο για να εκπαιδεύσει έναν εγκέφαλο μηχανής.

Με στοιχεία από την εμπειρία ενός μόνο παιδιού, ο αλγόριθμος μπόρεσε να καταγράψει πώς σχετίζονται οι λέξεις μεταξύ τους και να συνδέσει λέξεις με εικόνες και έννοιες. Υποδηλώνει ότι για τα νήπια το να ακούν λέξεις και να τις ταιριάζουν με αυτό που βλέπουν βοηθά στην οικοδόμηση του λεξιλογίου τους.

Αυτό δεν σημαίνει ότι άλλες διεργασίες του εγκεφάλου, όπως οι κοινωνικές ενδείξεις και ο συλλογισμός δεν μπαίνουν στο παιχνίδι. Η προσθήκη αυτών των στοιχείων στον αλγόριθμο θα μπορούσε ενδεχομένως να τον βελτιώσει, έγραψαν οι συγγραφείς.

Η ομάδα σχεδιάζει να συνεχίσει το πείραμα. Προς το παρόν, το «μωρό» AI μαθαίνει μόνο από καρέ ακίνητων εικόνων και έχει ένα λεξιλόγιο που αποτελείται κυρίως από ουσιαστικά. Η ενσωμάτωση τμημάτων βίντεο στην εκπαίδευση θα μπορούσε να βοηθήσει το AI να μάθει ρήματα, επειδή το βίντεο περιλαμβάνει κίνηση.

Η προσθήκη τονισμού στα δεδομένα ομιλίας θα μπορούσε επίσης να βοηθήσει. Τα παιδιά μαθαίνουν από νωρίς ότι το «χμμ» μιας μαμάς μπορεί να έχει πολύ διαφορετικές έννοιες ανάλογα με τον τόνο.

Αλλά συνολικά, ο συνδυασμός τεχνητής νοημοσύνης και εμπειριών ζωής είναι μια ισχυρή νέα μέθοδος για τη μελέτη τόσο του μηχανικού όσο και του ανθρώπινου εγκεφάλου. Θα μπορούσε να μας βοηθήσει να αναπτύξουμε νέα μοντέλα τεχνητής νοημοσύνης που μαθαίνουν σαν παιδιά και ενδεχομένως να αναδιαμορφώσουμε την κατανόησή μας για το πώς ο εγκέφαλός μας μαθαίνει τη γλώσσα και τις έννοιες.

Πίστωση εικόνας: Wai Keen Vong