Heart of the Matter: Demystifying Copying in Training of LLMs - DATAVERSITY

Sakens hjerte: Avmystifiserende kopiering i opplæringen av LLM-er – DATAVERSITY

Kilde node: 3093102

Når vi reflekterer over de siste 15 månedene, har fremgangen gjort i generative AI og store språkmodeller (LLM) etter introduksjonen og tilgjengeligheten av ChatGPT for publikum dominert overskriftene. 

Byggesteinen for denne fremgangen var transformatormodellarkitekturen skissert av et team av Google-forskere i en artikkel med tittelen "Oppmerksomhet er alt du trenger." Som tittelen antyder, er et nøkkeltrekk ved alle Transformer-modeller oppmerksomhetsmekanismen, definert i artikkelen som følger:

"En oppmerksomhetsfunksjon kan beskrives som å kartlegge en spørring og et sett med nøkkelverdi-par til en utgang, der spørringen, nøklene, verdiene og utdataene alle er vektorer. Utdataene beregnes som en vektet sum av verdiene, der vekten som er tildelt hver verdi, beregnes av en kompatibilitetsfunksjon for spørringen med den tilsvarende nøkkelen."

Et kjennetegn ved generative AI-modeller er det enorme forbruket av datainndata, som kan bestå av tekst, bilder, lydfiler, videofiler eller en hvilken som helst kombinasjon av inngangene (en sak som vanligvis refereres til som "multimodal"). Fra et opphavsrettslig perspektiv er et viktig spørsmål (av mange viktige spørsmål) å stille om opplæringsmateriell er beholdt i stor språkmodell (LLM) produsert av forskjellige LLM-leverandører. For å bidra til å svare på det spørsmålet, må vi forstå hvordan tekstmaterialet behandles. Med fokus på tekst, er det følgende en kort, ikke-teknisk beskrivelse av akkurat det aspektet ved LLM-trening. 

Mennesker kommuniserer på naturlig språk ved å plassere ord i sekvenser; reglene om sekvensering og spesifikk form for et ord er diktert av det spesifikke språket (f.eks. engelsk). En vesentlig del av arkitekturen for alle programvaresystemer som behandler tekst (og derfor for alle AI-systemer som gjør det) er hvordan man skal representere den teksten slik at funksjonene til systemet kan utføres mest effektivt. Derfor er et nøkkeltrinn i behandlingen av en tekstinndata i språkmodeller oppdelingen av brukerinndata i spesielle "ord" som AI-systemet kan forstå. Disse spesielle ordene kalles "tokens". Komponenten som er ansvarlig for det kalles en "tokenizer". Det finnes mange typer tokenizers. For eksempel bruker OpenAI og Azure OpenAI en tokeniseringsmetode for underord kalt "Byte-Pair Encoding (BPE)" for sine Generative Pretrained Transformer (GPT)-baserte modeller. BPE er en metode som slår sammen de hyppigst forekommende tegnparene eller bytene til et enkelt token, til et visst antall tokens eller en ordforrådsstørrelse er nådd. Jo større ordforrådet er, jo mer varierte og uttrykksfulle tekster kan modellen generere.

Når AI-systemet har kartlagt inndatateksten til tokens, koder det tokens til tall og konverterer sekvensene som det behandlet som vektorer referert til som "ordinnbygging." En vektor er et ordnet sett med tall – du kan tenke på det som en rad eller kolonne i en tabell. Disse vektorene er representasjoner av tokens som bevarer deres opprinnelige naturlige språkrepresentasjon som ble gitt som tekst. Det er viktig å forstå rollen til ordinnbygginger når det kommer til opphavsrett fordi innbyggingene danner representasjoner (eller kodinger) av hele setninger, eller til og med avsnitt, og derfor, i vektorkombinasjoner, til og med hele dokumenter i et høydimensjonalt vektorrom. Det er gjennom disse innebyggingene at AI-systemet fanger opp og lagrer betydningen og relasjonene til ord fra det naturlige språket. 

Innebygginger brukes i praktisk talt alle oppgaver som et generativt AI-system utfører (f.eks. tekstgenerering, tekstoppsummering, tekstklassifisering, tekstoversettelse, bildegenerering, kodegenerering og så videre). Ordinnbygginger lagres vanligvis i vektordatabaser, men en detaljert beskrivelse av alle tilnærmingene til lagring er utenfor rammen av dette innlegget, da det er et bredt utvalg av leverandører, prosesser og praksiser i bruk.

Som nevnt er nesten alle LLM-er basert på Transformer-arkitekturen, som påkaller oppmerksomhetsmekanismen. Sistnevnte lar AI-teknologien se hele setninger, og til og med avsnitt, som en helhet i stedet for som bare sekvenser av tegn. Dette gjør at programvaren kan fange opp de ulike kontekstene et ord kan forekomme innenfor, og siden disse kontekstene leveres av verkene som brukes i opplæringen, inkludert opphavsrettsbeskyttede verk, er de ikke vilkårlige. På denne måten bevares den opprinnelige bruken av ordene, uttrykket til originalverket, i AI-systemet. Det kan reproduseres og analyseres, og kan danne grunnlag for nye uttrykk (som avhengig av de konkrete omstendighetene kan karakteriseres som «avledet verk» på opphavsrettsspråk). 

LLM-er beholder uttrykkene til de originale verkene de har blitt trent på. De danner interne representasjoner av teksten i spesialbygde vektorrom og, gitt passende input som en trigger, kunne de reprodusere de originale verkene som ble brukt i opplæringen deres. AI-systemer får evige fordeler av innholdet, inkludert opphavsrettsbeskyttet innhold, som brukes til å trene LLM-ene som de er basert på. LLM-er gjenkjenner konteksten til ord basert på uttrykket av ord i originalverket. Og denne konteksten gagner kumulativt AI-systemet på tvers av tusenvis eller millioner av opphavsrettsbeskyttede verk som brukes i trening. Disse originale verkene kan gjenskapes av AI-systemet fordi de er lagret i vektorer – vektor-rom-representasjoner av tokens som bevarer deres originale naturlige språkrepresentasjon – av det opphavsrettsbeskyttede verket. Fra et opphavsrettslig perspektiv er det kjernen i saken å avgjøre om opplæringsmateriell beholdes i LLM, og det er klart at svaret på det spørsmålet er ja.

Tidstempel:

Mer fra DATAVERSITET