Risolvere un mistero di apprendimento automatico

Risolvere un mistero di apprendimento automatico

Nodo di origine: 1944875
07 febbraio 2023 (Notizie Nanowerk) I modelli linguistici di grandi dimensioni come GPT-3 di OpenAI sono enormi reti neurali in grado di generare testo simile a quello umano, dalla poesia al codice di programmazione. Addestrati utilizzando dati Internet, questi modelli di apprendimento automatico prendono una piccola porzione di testo di input e quindi prevedono il testo che probabilmente verrà successivo. Ma non è tutto ciò che questi modelli possono fare. I ricercatori stanno esplorando un curioso fenomeno noto come apprendimento in contesto, in cui un grande modello linguistico impara a svolgere un compito dopo aver visto solo pochi esempi, nonostante non sia stato addestrato per quel compito. Ad esempio, qualcuno potrebbe fornire al modello diverse frasi di esempio e i propri sentimenti (positivi o negativi), quindi richiederlo con una nuova frase e il modello può fornire il sentimento corretto. In genere, un modello di apprendimento automatico come GPT-3 dovrebbe essere riqualificato con nuovi dati per questa nuova attività. Durante questo processo di formazione, il modello aggiorna i suoi parametri mentre elabora nuove informazioni per apprendere l'attività. Ma con l'apprendimento in contesto, i parametri del modello non vengono aggiornati, quindi sembra che il modello impari una nuova attività senza apprendere nulla. Gli scienziati del MIT, di Google Research e della Stanford University stanno cercando di svelare questo mistero. Hanno studiato modelli molto simili ai modelli linguistici di grandi dimensioni per vedere come possono apprendere senza aggiornare i parametri. I risultati teorici dei ricercatori mostrano che questi massicci modelli di reti neurali sono in grado di contenere modelli lineari più piccoli e semplici sepolti al loro interno. Il modello più grande potrebbe quindi implementare un semplice algoritmo di apprendimento per addestrare questo modello lineare più piccolo a completare una nuova attività, utilizzando solo le informazioni già contenute nel modello più grande. I suoi parametri rimangono fissi. Rappresentando un passo importante verso la comprensione dei meccanismi alla base dell'apprendimento in contesto, questa ricerca apre la porta a una maggiore esplorazione degli algoritmi di apprendimento che questi grandi modelli possono implementare, afferma Ekin Akyürek, uno studente laureato in informatica e autore principale di un articolo (“What learning algorithm is in-context learning? Investigations with linear models”) esplorando questo fenomeno. Con una migliore comprensione dell'apprendimento in contesto, i ricercatori potrebbero consentire ai modelli di completare nuovi compiti senza la necessità di costose riqualificazioni. “Di solito, se si desidera mettere a punto questi modelli, è necessario raccogliere dati specifici del dominio ed eseguire attività di ingegneria complessa. Ma ora possiamo semplicemente fornirgli un input, cinque esempi, e realizza ciò che vogliamo. Quindi l’apprendimento in contesto è un fenomeno piuttosto entusiasmante”, afferma Akyürek. Insieme ad Akyürek nell'articolo ci sono Dale Schuurmans, ricercatore presso Google Brain e professore di informatica presso l'Università di Alberta; così come gli autori senior Jacob Andreas, professore assistente del Consorzio X presso il Dipartimento di ingegneria elettrica e informatica del MIT e membro del Laboratorio di informatica e intelligenza artificiale del MIT (CSAIL); Tengyu Ma, assistente professore di informatica e statistica a Stanford; e Danny Zhou, principale scienziato e direttore della ricerca presso Google Brain. La ricerca sarà presentata alla Conferenza Internazionale sulle Rappresentazioni dell'Apprendimento.

Un modello nel modello

Nella comunità di ricerca sull’apprendimento automatico, molti scienziati sono arrivati ​​a credere che i modelli linguistici di grandi dimensioni possano eseguire l’apprendimento in contesto grazie al modo in cui vengono addestrati, afferma Akyürek. Ad esempio, GPT-3 ha centinaia di miliardi di parametri ed è stato addestrato leggendo enormi quantità di testo su Internet, dagli articoli di Wikipedia ai post di Reddit. Pertanto, quando qualcuno mostra gli esempi del modello di una nuova attività, probabilmente ha già visto qualcosa di molto simile perché il suo set di dati di addestramento includeva testo da miliardi di siti web. Ripete gli schemi che ha visto durante l’addestramento, invece di imparare a svolgere nuovi compiti. Akyürek ha ipotizzato che gli studenti inseriti nel contesto non si limitino ad abbinare modelli visti in precedenza, ma stiano invece imparando a svolgere nuovi compiti. Lui e altri avevano sperimentato fornendo a questi modelli suggerimenti utilizzando dati sintetici, che non avrebbero potuto vedere da nessuna parte prima, e avevano scoperto che i modelli potevano ancora imparare anche solo da pochi esempi. Akyürek e i suoi colleghi hanno pensato che forse questi modelli di rete neurale contengono al loro interno modelli di apprendimento automatico più piccoli che i modelli possono addestrare per completare un nuovo compito. "Ciò potrebbe spiegare quasi tutti i fenomeni di apprendimento che abbiamo osservato con questi modelli di grandi dimensioni", afferma. Per testare questa ipotesi, i ricercatori hanno utilizzato un modello di rete neurale chiamato trasformatore, che ha la stessa architettura di GPT-3, ma è stato appositamente addestrato per l’apprendimento in contesto. Esplorando l'architettura di questo trasformatore, hanno teoricamente dimostrato che può scrivere un modello lineare all'interno dei suoi stati nascosti. Una rete neurale è composta da molti strati di nodi interconnessi che elaborano i dati. Gli stati nascosti sono i livelli tra i livelli di input e di output. Le loro valutazioni matematiche mostrano che questo modello lineare è scritto da qualche parte nei primi strati del trasformatore. Il trasformatore può quindi aggiornare il modello lineare implementando semplici algoritmi di apprendimento. In sostanza, il modello simula e addestra una versione più piccola di se stesso.

Sondare gli strati nascosti

I ricercatori hanno esplorato questa ipotesi utilizzando esperimenti di sondaggio, in cui hanno cercato negli strati nascosti del trasformatore per cercare di recuperarne una certa quantità. “In questo caso, abbiamo cercato di recuperare la soluzione effettiva del modello lineare e abbiamo potuto dimostrare che il parametro è scritto negli stati nascosti. Ciò significa che il modello lineare è lì da qualche parte”, afferma. Basandosi su questo lavoro teorico, i ricercatori potrebbero essere in grado di consentire a un trasformatore di eseguire l’apprendimento nel contesto aggiungendo solo due strati alla rete neurale. Ci sono ancora molti dettagli tecnici da elaborare prima che ciò sia possibile, avverte Akyürek, ma ciò potrebbe aiutare gli ingegneri a creare modelli in grado di completare nuove attività senza la necessità di riqualificarsi con nuovi dati. Guardando al futuro, Akyürek prevede di continuare a esplorare l’apprendimento in contesto con funzioni più complesse rispetto ai modelli lineari studiati in questo lavoro. Potrebbero anche applicare questi esperimenti a modelli linguistici di grandi dimensioni per vedere se i loro comportamenti sono descritti anche da semplici algoritmi di apprendimento. Inoltre, vuole approfondire i tipi di dati pre-formazione che possono consentire l’apprendimento in contesto. “Con questo lavoro, le persone possono ora visualizzare come questi modelli possono imparare dagli esemplari. Quindi, la mia speranza è che ciò cambi il punto di vista di alcune persone sull'apprendimento contestuale", afferma Akyürek. “Questi modelli non sono così stupidi come la gente pensa. Non si limitano a memorizzare questi compiti. Possono imparare nuovi compiti e noi abbiamo dimostrato come ciò possa essere fatto”.

Timestamp:

Di più da Nanowerk