Il nocciolo della questione: la copia demistificante nella formazione dei LLM - DATAVERSITY

Il nocciolo della questione: la copia demistificante nella formazione dei LLM – DATAVERSITY

Nodo di origine: 3093102

Riflettendo sugli ultimi 15 mesi, i progressi compiuti nell’intelligenza artificiale generativa e nei modelli linguistici di grandi dimensioni (LLM) in seguito all’introduzione e alla disponibilità di ChatGPT al pubblico hanno dominato i titoli dei giornali. 

L’elemento fondamentale di questo progresso è stata l’architettura del modello Transformer delineata da un team di ricercatori di Google in un articolo intitolato “L'attenzione è tutto ciò che serve.” Come suggerisce il titolo, una caratteristica fondamentale di tutti i modelli Transformer è il meccanismo dell'attenzione, definito nel documento come segue:

“Una funzione di attenzione può essere descritta come la mappatura di una query e di un insieme di coppie chiave-valore su un output, dove la query, le chiavi, i valori e l’output sono tutti vettori. L'output viene calcolato come somma ponderata dei valori, dove il peso assegnato a ciascun valore viene calcolato da una funzione di compatibilità della query con la chiave corrispondente.

Una caratteristica dei modelli di intelligenza artificiale generativa è il consumo massiccio di input di dati, che potrebbero consistere in testo, immagini, file audio, file video o qualsiasi combinazione di input (un caso solitamente definito “multimodale”). Dal punto di vista del copyright, una domanda importante (tra molte domande importanti) da porsi è se i materiali di formazione vengono conservati nel file grande modello linguistico (LLM) prodotto da vari fornitori LLM. Per aiutare a rispondere a questa domanda, dobbiamo capire come vengono elaborati i materiali testuali. Concentrandosi sul testo, quella che segue è una breve descrizione non tecnica esattamente di quell'aspetto della formazione LLM. 

Gli esseri umani comunicano nel linguaggio naturale inserendo le parole in sequenze; le regole sulla sequenza e sulla forma specifica di una parola sono dettate dalla lingua specifica (ad esempio, l'inglese). Una parte essenziale dell’architettura per tutti i sistemi software che elaborano il testo (e quindi per tutti i sistemi di intelligenza artificiale che lo fanno) è come rappresentare quel testo in modo che le funzioni del sistema possano essere eseguite nel modo più efficiente. Pertanto, un passaggio chiave nell’elaborazione di un input testuale nei modelli linguistici è la suddivisione dell’input dell’utente in “parole” speciali che il sistema di intelligenza artificiale può comprendere. Quelle parole speciali sono chiamate “gettoni”. Il componente responsabile di ciò è chiamato “tokenizer”. Esistono molti tipi di tokenizzatori. Ad esempio, OpenAI e Azure OpenAI utilizzano un metodo di tokenizzazione di sottoparole chiamato "Byte-Pair Encoding (BPE)" per i loro modelli basati su Generative Pretrained Transformer (GPT). BPE è un metodo che unisce le coppie di caratteri o byte più frequenti in un singolo token, fino a raggiungere un certo numero di token o una dimensione del vocabolario. Maggiore è la dimensione del vocabolario, più diversi ed espressivi saranno i testi che il modello può generare.

Una volta che il sistema di intelligenza artificiale ha mappato il testo di input in token, codifica i token in numeri e converte le sequenze che ha elaborato come vettori denominati “word embedding”. Un vettore è un insieme ordinato di numeri: puoi considerarlo come una riga o una colonna in una tabella. Questi vettori sono rappresentazioni di token che preservano la loro rappresentazione originale nel linguaggio naturale data come testo. È importante comprendere il ruolo degli incorporamenti di parole quando si tratta di copyright perché gli incorporamenti formano rappresentazioni (o codifiche) di intere frasi, o anche paragrafi, e quindi, in combinazioni vettoriali, anche interi documenti in uno spazio vettoriale ad alta dimensione. È attraverso questi incorporamenti che il sistema di intelligenza artificiale cattura e memorizza il significato e le relazioni delle parole del linguaggio naturale. 

Gli incorporamenti vengono utilizzati praticamente in ogni attività eseguita da un sistema di intelligenza artificiale generativa (ad esempio, generazione di testo, riepilogo del testo, classificazione del testo, traduzione del testo, generazione di immagini, generazione di codice e così via). Gli incorporamenti di parole vengono solitamente archiviati in database vettoriali, ma una descrizione dettagliata di tutti gli approcci all'archiviazione va oltre lo scopo di questo post poiché esiste un'ampia varietà di fornitori, processi e pratiche in uso.

Come accennato, quasi tutti gli LLM si basano sull'architettura Transformer, che richiama il meccanismo dell'attenzione. Quest’ultimo consente alla tecnologia AI di visualizzare intere frasi, e persino paragrafi, nel loro insieme anziché come semplici sequenze di caratteri. Ciò consente al software di catturare i vari contesti all'interno dei quali può verificarsi una parola e, poiché questi contesti sono forniti dalle opere utilizzate nella formazione, comprese le opere protette da copyright, non sono arbitrari. In questo modo, l'uso originale delle parole, l'espressione dell'opera originale, viene preservato nel sistema AI. Può essere riprodotta e analizzata e può costituire la base di nuove espressioni (che, a seconda delle circostanze specifiche, possono essere caratterizzate come “opera derivata” nel gergo del copyright). 

I LLM conservano le espressioni delle opere originali su cui sono stati formati. Formano rappresentazioni interne del testo in spazi vettoriali appositamente costruiti e, dato l'input appropriato come trigger, possono riprodurre le opere originali utilizzate nella loro formazione. I sistemi di intelligenza artificiale traggono benefici perpetui dal contenuto, compresi i contenuti protetti da copyright, utilizzati per addestrare gli LLM su cui si basano. Gli LLM riconoscono il contesto delle parole in base all'espressione delle parole nell'opera originale. E questo contesto avvantaggia cumulativamente il sistema di intelligenza artificiale per migliaia, o milioni, di opere protette da copyright utilizzate nella formazione. Queste opere originali possono essere ricreate dal sistema di intelligenza artificiale perché sono archiviate in vettori – rappresentazioni nello spazio vettoriale di token che preservano la loro rappresentazione originale nel linguaggio naturale – dell’opera protetta da copyright. Dal punto di vista del copyright, determinare se i materiali formativi sono conservati nei LLM è al centro della questione ed è chiaro che la risposta a questa domanda è sì.

Timestamp:

Di più da VERSITÀ DEI DATI