Srce zadeve: demistifikacija kopiranja pri usposabljanju LLM - DATAVERSITY

Srce zadeve: demistifikacija kopiranja pri usposabljanju LLM – DATAVERSITY

Izvorno vozlišče: 3093102

Glede na zadnjih 15 mesecev je napredek, dosežen pri generativni AI in velikih jezikovnih modelih (LLM) po uvedbi in dostopnosti ChatGPT javnosti, prevladoval na naslovnicah. 

Gradnik tega napredka je bila arhitektura modela Transformer, ki jo je orisala skupina Googlovih raziskovalcev v dokumentu z naslovom "Pozornost je vse, kar potrebujete.” Kot pove naslov, je ključna značilnost vseh modelov Transformer mehanizem pozornosti, ki je v prispevku opredeljen na naslednji način:

»Funkcijo pozornosti lahko opišemo kot preslikavo poizvedbe in nabora parov ključ-vrednost v izhod, kjer so poizvedba, ključi, vrednosti in izhod vsi vektorji. Izhod je izračunan kot utežena vsota vrednosti, pri čemer je utež, dodeljena vsaki vrednosti, izračunana s funkcijo združljivosti poizvedbe z ustreznim ključem.«

Značilnost generativnih modelov umetne inteligence je ogromna poraba podatkovnih vnosov, ki so lahko sestavljeni iz besedila, slik, zvočnih datotek, video datotek ali katere koli kombinacije vnosov (primer, ki se običajno imenuje "multi-modalni"). Z vidika avtorskih pravic je pomembno vprašanje (od mnogih pomembnih vprašanj), ki si ga je treba zastaviti, ali se gradivo za usposabljanje obdrži v velik jezikovni model (LLM), ki ga proizvajajo različni prodajalci LLM. Da bi odgovorili na to vprašanje, moramo razumeti, kako se besedilna gradiva obdelujejo. Če se osredotočimo na besedilo, sledi kratek, netehničen opis točno tega vidika usposabljanja LLM. 

Ljudje se sporazumevamo v naravnem jeziku tako, da besede postavljamo v zaporedje; pravila o zaporedju in specifični obliki besede narekuje določen jezik (npr. angleščina). Bistveni del arhitekture za vse sisteme programske opreme, ki obdelujejo besedilo (in torej za vse sisteme AI, ki to počnejo), je, kako predstaviti to besedilo, tako da se lahko funkcije sistema izvajajo najbolj učinkovito. Zato je ključni korak pri obdelavi besedilnega vnosa v jezikovnih modelih razdelitev uporabniškega vnosa na posebne »besede«, ki jih lahko sistem AI razume. Te posebne besede se imenujejo "žetoni". Komponenta, ki je odgovorna za to, se imenuje "tokenizator". Obstaja veliko vrst tokenizerjev. Na primer, OpenAI in Azure OpenAI uporabljata metodo tokenizacije podbesed, imenovano »Byte-Pair Encoding (BPE)« za svoje modele, ki temeljijo na Generative Pretrained Transformer (GPT). BPE je metoda, ki združuje najpogosteje pojavljajoče se pare znakov ali bajtov v en žeton, dokler ni doseženo določeno število žetonov ali velikost besedišča. Večji kot je obseg besedišča, bolj raznolika in izrazita so besedila, ki jih lahko ustvari model.

Ko sistem AI preslika vhodno besedilo v žetone, kodira žetone v številke in pretvori zaporedja, ki jih je obdelal kot vektorje, imenovane "vdelave besed". Vektor je urejen niz števil – lahko si ga predstavljate kot vrstico ali stolpec v tabeli. Ti vektorji so predstavitve žetonov, ki ohranjajo svojo izvirno predstavitev naravnega jezika, ki je bila dana kot besedilo. Pomembno je razumeti vlogo besednih vdelav, ko gre za avtorske pravice, saj vdelave tvorijo predstavitve (ali kodiranja) celotnih stavkov ali celo odstavkov in torej v vektorskih kombinacijah celo celotne dokumente v visokodimenzionalnem vektorskem prostoru. S pomočjo teh vdelav sistem AI zajame in shrani pomen in razmerja besed iz naravnega jezika. 

Vdelave se uporabljajo v praktično vsaki nalogi, ki jo izvaja generativni sistem AI (npr. generiranje besedila, povzemanje besedila, klasifikacija besedila, prevajanje besedila, generiranje slik, generiranje kode itd.). Besedne vdelave so običajno shranjene v vektorskih bazah podatkov, vendar podroben opis vseh pristopov k shranjevanju presega obseg te objave, saj se uporabljajo številni ponudniki, procesi in prakse.

Kot že omenjeno, skoraj vsi LLM temeljijo na arhitekturi Transformer, ki prikliče mehanizem pozornosti. Slednje omogoča tehnologiji umetne inteligence, da si celotne stavke in celo odstavke ogleda kot celoto in ne le kot zaporedje znakov. To omogoča programski opremi, da zajame različne kontekste, v katerih se lahko pojavi beseda, in ker ti konteksti zagotavljajo dela, uporabljena pri usposabljanju, vključno z avtorsko zaščitenimi deli, niso poljubni. Na ta način se v sistemu umetne inteligence ohrani izvirna uporaba besed, izraz izvirnega dela. Lahko ga je reproducirati in analizirati ter je lahko podlaga za nove izraze (ki jih je glede na posebne okoliščine mogoče označiti kot "izpeljano delo" v jeziku avtorskih pravic). 

LLM ohranijo izraze izvirnih del, na katerih so se usposabljali. Oblikujejo notranje predstavitve besedila v namensko zgrajenih vektorskih prostorih in ob ustreznem vnosu kot sprožilcu lahko reproducirajo izvirna dela, ki so bila uporabljena pri njihovem usposabljanju. Sistemi umetne inteligence imajo stalne koristi od vsebine, vključno z avtorsko zaščiteno vsebino, ki se uporablja za usposabljanje LLM-jev, na katerih temeljijo. LLM prepoznajo kontekst besed na podlagi izražanja besed v izvirnem delu. In ta kontekst kumulativno koristi sistemu AI v tisočih ali milijonih avtorsko zaščitenih del, ki se uporabljajo pri usposabljanju. Ta izvirna dela lahko znova ustvari sistem AI, ker so shranjena v vektorjih – vektorsko-prostorskih predstavitev žetonov, ki ohranjajo svojo izvirno predstavitev naravnega jezika – avtorsko zaščitenega dela. Z vidika avtorskih pravic je bistvo zadeve določitev, ali se gradivo za usposabljanje obdrži v LLM, in jasno je, da je odgovor na to vprašanje pritrdilen.

Časovni žig:

Več od PODATKOVNOST