Heart of the Matter: Demistificarea copierii în formarea LLM - DATAVERSITY

Inima problemei: demitificarea copierii în formarea LLM – DATAVERSITY

Nodul sursă: 3093102

Reflectând la ultimele 15 luni, progresele înregistrate în IA generativă și modelele lingvistice mari (LLM) în urma introducerii și disponibilității ChatGPT pentru public au dominat titlurile. 

Elementul de bază pentru acest progres a fost arhitectura modelului Transformer conturată de o echipă de cercetători Google într-o lucrare intitulată „Atenția este tot ce aveți nevoie.” După cum sugerează și titlul, o caracteristică cheie a tuturor modelelor Transformer este mecanismul de atenție, definit în lucrare după cum urmează:

„O funcție de atenție poate fi descrisă ca maparea unei interogări și a unui set de perechi cheie-valoare la o ieșire, unde interogarea, cheile, valorile și ieșirea sunt toți vectori. Rezultatul este calculat ca o sumă ponderată a valorilor, unde ponderea atribuită fiecărei valori este calculată de o funcție de compatibilitate a interogării cu cheia corespunzătoare.”

O caracteristică a modelelor AI generative este consumul masiv de intrări de date, care ar putea consta din text, imagini, fișiere audio, fișiere video sau orice combinație a intrărilor (un caz denumit de obicei „multi-modal”). Din perspectiva dreptului de autor, o întrebare importantă (dintre multe întrebări importante) de pus este dacă materialele de instruire sunt păstrate în model de limbaj mare (LLM) produs de diverși furnizori de LLM. Pentru a răspunde la această întrebare, trebuie să înțelegem cum sunt procesate materialele textuale. Concentrându-ne pe text, ceea ce urmează este o descriere scurtă, non-tehnică, a exact acel aspect al formării LLM. 

Oamenii comunică în limbaj natural prin plasarea cuvintelor în secvențe; regulile despre secvențierea și forma specifică a unui cuvânt sunt dictate de limba specifică (de exemplu, engleza). O parte esențială a arhitecturii pentru toate sistemele software care procesează text (și, prin urmare, pentru toate sistemele AI care fac acest lucru) este modul de reprezentare a textului, astfel încât funcțiile sistemului să poată fi îndeplinite cel mai eficient. Prin urmare, un pas cheie în procesarea unei intrări textuale în modelele de limbaj este împărțirea intrării utilizatorului în „cuvinte” speciale pe care sistemul AI le poate înțelege. Aceste cuvinte speciale se numesc „jetoane”. Componenta care este responsabilă pentru asta se numește „tokenizer”. Există multe tipuri de tokenizer. De exemplu, OpenAI și Azure OpenAI utilizează o metodă de tokenizare a subcuvintelor numită „Byte-Pair Encoding (BPE)” pentru modelele lor bazate pe Generative Pretrained Transformer (GPT). BPE este o metodă care îmbină cele mai frecvente perechi de caractere sau octeți într-un singur token, până când se atinge un anumit număr de token-uri sau o dimensiune a vocabularului. Cu cât dimensiunea vocabularului este mai mare, cu atât textele pe care modelul le poate genera sunt mai diverse și mai expresive.

Odată ce sistemul AI a mapat textul de intrare în jetoane, acesta codifică jetoanele în numere și convertește secvențele pe care le-a procesat ca vectori denumiți „înglobare de cuvinte”. Un vector este un set ordonat de numere – vă puteți gândi la el ca la un rând sau o coloană dintr-un tabel. Acești vectori sunt reprezentări ale jetoanelor care își păstrează reprezentarea originală în limbaj natural, care a fost dată ca text. Este important să înțelegem rolul înglobărilor de cuvinte atunci când vine vorba de drepturi de autor, deoarece înglobările formează reprezentări (sau codificări) ale unor propoziții întregi, sau chiar a unor paragrafe și, prin urmare, în combinații vectoriale, chiar și documente întregi într-un spațiu vectorial de dimensiuni mari. Prin aceste înglobări, sistemul AI captează și stochează semnificația și relațiile cuvintelor din limbajul natural. 

Înglobările sunt folosite practic în fiecare sarcină pe care o realizează un sistem AI generativ (de exemplu, generarea de text, rezumarea textului, clasificarea textului, traducerea textului, generarea de imagini, generarea de cod și așa mai departe). Înglobarile de cuvinte sunt de obicei stocate în baze de date vectoriale, dar o descriere detaliată a tuturor abordărilor de stocare depășește scopul acestei postări, deoarece există o mare varietate de furnizori, procese și practici în uz.

După cum am menționat, aproape toate LLM-urile se bazează pe arhitectura Transformer, care invocă mecanismul de atenție. Acesta din urmă permite tehnologiei AI să vadă propoziții întregi, și chiar paragrafe, ca un întreg, mai degrabă decât ca simple secvențe de caractere. Acest lucru permite software-ului să capteze diferitele contexte în care poate apărea un cuvânt și, deoarece aceste contexte sunt furnizate de lucrările utilizate în instruire, inclusiv lucrările protejate prin drepturi de autor, nu sunt arbitrare. În acest fel, utilizarea originală a cuvintelor, expresia operei originale, este păstrată în sistemul AI. Poate fi reprodusă și analizată și poate sta la baza unor noi expresii (care, în funcție de circumstanțele specifice, pot fi caracterizate drept „operă derivată” în limbajul dreptului de autor). 

LLM-urile păstrează expresiile lucrărilor originale pe care au fost instruiți. Ele formează reprezentări interne ale textului în spații vectoriale special construite și, având în vedere intrarea adecvată ca declanșator, ar putea reproduce lucrările originale care au fost folosite în formarea lor. Sistemele de inteligență artificială obțin beneficii perpetue din conținut, inclusiv conținut protejat prin drepturi de autor, utilizat pentru instruirea LLM-urilor pe care se bazează. LLM recunosc contextul cuvintelor pe baza expresiei cuvintelor din lucrarea originală. Și acest context beneficiază în mod cumulativ sistemul AI prin intermediul a mii sau milioane de lucrări protejate prin drepturi de autor utilizate în instruire. Aceste lucrări originale pot fi recreate de sistemul AI deoarece sunt stocate în vectori – reprezentări în spațiu vectorial ale jetoanelor care își păstrează reprezentarea originală în limbajul natural – ale lucrării protejate prin drepturi de autor. Din perspectiva dreptului de autor, determinarea dacă materialele de formare sunt păstrate în LLM-uri este în centrul problemei și este clar că răspunsul la această întrebare este da.

Timestamp-ul:

Mai mult de la VERSITATE DE DATE