Asja tuum: kopeerimise demüstifitseerimine LLM-ide koolitamisel – DATAVERSITY

Asja tuum: kopeerimise demüstifitseerimine LLM-ide koolitamisel – DATAVERSITY

Allikasõlm: 3093102

Mõeldes viimase 15 kuu peale, on pealkirjades domineerinud edusammud, mis on tehtud generatiivsete AI ja suurte keelemudelite (LLM) vallas pärast ChatGPT tutvustamist ja avalikkusele kättesaadavust. 

Selle edu aluseks oli Transformeri mudeli arhitektuur, mille Google'i teadlaste meeskond kirjeldas oma artiklis "Tähelepanu on kõik, mida vajate.” Nagu pealkiri viitab, on kõigi Transformeri mudelite põhijooneks tähelepanu mehhanism, mis on dokumendis määratletud järgmiselt:

"Tähelepanufunktsiooni võib kirjeldada kui päringu ja võtme-väärtuste paaride komplekti vastendamist väljundiga, kus päring, võtmed, väärtused ja väljund on kõik vektorid. Väljund arvutatakse väärtuste kaalutud summana, kus igale väärtusele määratud kaal arvutatakse päringu ühilduvusfunktsiooni ja vastava võtmega.

Generatiivsete tehisintellekti mudelite tunnuseks on andmesisendite massiline tarbimine, mis võib koosneda tekstist, piltidest, helifailidest, videofailidest või sisendite mis tahes kombinatsioonist (tavaliselt nimetatakse seda "mitmemodaalseks"). Autoriõiguse seisukohast on oluline (paljude oluliste küsimuste hulgast) küsida, kas õppematerjale säilitatakse suur keelemudel (LLM), mida toodavad erinevad LLM-i müüjad. Sellele küsimusele vastamiseks peame mõistma, kuidas tekstimaterjale töödeldakse. Keskendudes tekstile, on järgnev lühike, mittetehniline kirjeldus täpselt selle LLM-koolituse aspekti kohta. 

Inimesed suhtlevad loomulikus keeles, asetades sõnu järjestikku; sõna järjestuse ja konkreetse vormi reeglid dikteerib konkreetne keel (nt inglise keel). Kõigi teksti töötlevate tarkvarasüsteemide (ja seega ka kõigi seda töötlevate AI-süsteemide) arhitektuuri oluline osa on see, kuidas seda teksti esitada nii, et süsteemi funktsioone saaks kõige tõhusamalt täita. Seetõttu on keelemudelites tekstisisestuse töötlemise võtmesamm kasutaja sisendi jagamine spetsiaalseteks "sõnadeks", millest AI-süsteem aru saab. Neid erilisi sõnu nimetatakse märkideks. Selle eest vastutavat komponenti nimetatakse tokenisaatoriks. Tokenisereid on mitut tüüpi. Näiteks OpenAI ja Azure OpenAI kasutavad oma generatiivse eeltreeningu transformaatoril (GPT) põhinevate mudelite jaoks alamsõna tokeniseerimismeetodit nimega "Byte-Pair Encoding (BPE)". BPE on meetod, mis liidab kõige sagedamini esinevad märgi- või baitide paarid üheks märgiks, kuni saavutatakse teatud arv märke või sõnavara suurus. Mida suurem on sõnavara maht, seda mitmekesisemad ja väljendusrikkamad on tekstid, mida mudel suudab genereerida.

Kui AI-süsteem on sisendteksti märgistanud, kodeerib see märgid numbriteks ja teisendab jadad, mida ta töötles vektoriteks, mida nimetatakse sõna manustamiseks. Vektor on järjestatud arvude kogum – võite seda mõelda kui tabeli rida või veergu. Need vektorid kujutavad endast märke, mis säilitavad nende algse loomuliku keele esituse, mis on antud tekstina. Oluline on mõista sõna manustamise rolli autoriõigustega seoses, sest manused moodustavad tervete lausete või isegi lõikude esitusi (või kodeeringuid) ja seetõttu vektorkombinatsioonides isegi terveid dokumente suuremõõtmelises vektorruumis. Just nende manuste kaudu jäädvustab ja salvestab AI-süsteem loomuliku keele sõnade tähendused ja seosed. 

Manustamist kasutatakse praktiliselt igas ülesandes, mida generatiivne AI-süsteem täidab (nt teksti genereerimine, teksti kokkuvõte, teksti klassifitseerimine, teksti tõlkimine, pildi genereerimine, koodi genereerimine jne). Wordi manuseid salvestatakse tavaliselt vektorandmebaasides, kuid kõigi talletusviiside üksikasjalik kirjeldus jääb sellest postitusest välja, kuna kasutusel on palju erinevaid tarnijaid, protsesse ja tavasid.

Nagu mainitud, põhinevad peaaegu kõik LLM-id Transformeri arhitektuuril, mis kutsub esile tähelepanumehhanismi. Viimane võimaldab AI-tehnoloogial vaadata terveid lauseid ja isegi lõike tervikuna, mitte lihtsalt tähemärkide jadadena. See võimaldab tarkvaral jäädvustada erinevaid kontekste, milles sõna võib esineda, ja kuna need kontekstid on loodud koolitusel kasutatavate teoste, sealhulgas autoriõigustega kaitstud teoste poolt, ei ole need meelevaldsed. Nii säilib AI-süsteemis sõnade algne kasutus, algupärase teose väljendus. Seda saab reprodutseerida ja analüüsida ning see võib olla aluseks uutele väljenditele (mida võib olenevalt konkreetsetest asjaoludest iseloomustada autoriõiguse kõnepruugis kui „tuletatud teost”). 

LLM-id säilitavad algupäraste teoste väljendid, mille kallal nad on koolitatud. Need moodustavad teksti siseesitusi selleks otstarbeks ehitatud vektorruumides ja, kui käivitatakse sobiv sisend, võivad nad reprodutseerida nende koolitusel kasutatud originaalteoseid. AI-süsteemid saavad pidevat kasu sisust, sealhulgas autoriõigustega kaitstud sisust, mida kasutatakse nende aluseks olevate LLM-ide koolitamiseks. LLM-id tunnevad ära sõnade konteksti algteose sõnade väljenduse põhjal. See kontekst toob tehisintellektisüsteemile kumulatiivset kasu tuhandete või miljonite koolitustel kasutatavate autoriõigustega kaitstud teoste puhul. Tehisintellektisüsteem saab neid originaalteoseid uuesti luua, kuna need on salvestatud autoriõigustega kaitstud teoste vektoritesse – žetoonide vektorruumiesitustesse, mis säilitavad algse loomuliku keele esituse. Autoriõiguse seisukohast on küsimuse keskmes selle kindlaksmääramine, kas õppematerjale säilitatakse elukestva õppega tegelevates ettevõtetes, ning on selge, et vastus sellele küsimusele on jah.

Ajatempel:

Veel alates ANDMED