Matterns hjärta: Avmystifierande kopiering i utbildningen av LLMs - DATAVERSITY

Matterns hjärta: Avmystifierande kopiering i utbildningen av LLM – DATAVERSITY

Källnod: 3093102

Med tanke på de senaste 15 månaderna har framstegen inom generativ AI och stora språkmodeller (LLM) efter introduktionen och tillgängligheten av ChatGPT för allmänheten dominerat rubrikerna. 

Byggstenen för detta framsteg var transformatormodellens arkitektur som beskrivs av ett team av Google-forskare i en artikel med titeln "Uppmärksamhet är allt du behöver.” Som titeln antyder är en nyckelfunktion hos alla Transformer-modeller uppmärksamhetsmekanismen, definierad i tidningen enligt följande:

"En uppmärksamhetsfunktion kan beskrivas som att mappa en fråga och en uppsättning nyckel-värdepar till en utdata, där frågan, nycklarna, värdena och utdata alla är vektorer. Utdata beräknas som en viktad summa av värdena, där vikten som tilldelas varje värde beräknas av en kompatibilitetsfunktion för frågan med motsvarande nyckel."

Ett kännetecken för generativa AI-modeller är den massiva konsumtionen av datainmatningar, som kan bestå av text, bilder, ljudfiler, videofiler eller vilken kombination som helst av ingångarna (ett fall som vanligtvis kallas "multimodalt"). Ur ett upphovsrättsligt perspektiv är en viktig fråga (av många viktiga frågor) att ställa om utbildningsmaterial finns kvar i stor språkmodell (LLM) producerad av olika LLM-leverantörer. För att hjälpa oss att svara på den frågan måste vi förstå hur textmaterialet bearbetas. Med fokus på text, vad som följer är en kort, icke-teknisk beskrivning av just den aspekten av LLM-utbildning. 

Människor kommunicerar på naturligt språk genom att placera ord i sekvenser; Reglerna om sekvenseringen och den specifika formen av ett ord dikteras av det specifika språket (t.ex. engelska). En väsentlig del av arkitekturen för alla programvarusystem som bearbetar text (och därför för alla AI-system som gör det) är hur man representerar den texten så att systemets funktioner kan utföras mest effektivt. Därför är ett nyckelsteg i bearbetningen av en textinmatning i språkmodeller uppdelningen av användarinmatningen i speciella "ord" som AI-systemet kan förstå. Dessa speciella ord kallas "tokens". Komponenten som är ansvarig för det kallas en "tokenizer". Det finns många typer av tokenizers. Till exempel använder OpenAI och Azure OpenAI en tokeniseringsmetod för underord som kallas "Byte-Pair Encoding (BPE)" för sina Generative Pretrained Transformer (GPT)-baserade modeller. BPE är en metod som slår samman de vanligast förekommande paren av tecken eller bytes till en enda token, tills ett visst antal tokens eller en ordförrådsstorlek uppnås. Ju större ordförråd, desto mer mångsidiga och uttrycksfulla texter kan modellen generera.

När AI-systemet har mappat inmatningstexten till tokens, kodar det tokens till siffror och konverterar sekvenserna som det bearbetade som vektorer som kallas "ordinbäddningar". En vektor är en ordnad uppsättning siffror – du kan se den som en rad eller kolumn i en tabell. Dessa vektorer är representationer av tokens som bevarar deras ursprungliga naturliga språkrepresentation som gavs som text. Det är viktigt att förstå betydelsen av ordinbäddningar när det kommer till upphovsrätt eftersom inbäddningarna bildar representationer (eller kodningar) av hela meningar, eller till och med stycken, och därför, i vektorkombinationer, även hela dokument i ett högdimensionellt vektorutrymme. Det är genom dessa inbäddningar som AI-systemet fångar och lagrar betydelsen och relationerna mellan ord från det naturliga språket. 

Inbäddningar används i praktiskt taget alla uppgifter som ett generativt AI-system utför (t.ex. textgenerering, textsammanfattning, textklassificering, textöversättning, bildgenerering, kodgenerering och så vidare). Ordinbäddningar lagras vanligtvis i vektordatabaser, men en detaljerad beskrivning av alla tillvägagångssätt för lagring ligger utanför ramen för detta inlägg eftersom det finns en mängd olika leverantörer, processer och metoder som används.

Som nämnts är nästan alla LLM:er baserade på Transformer-arkitekturen, som åberopar uppmärksamhetsmekanismen. Det senare tillåter AI-tekniken att se hela meningar, och till och med stycken, som en helhet snarare än som enbart teckensekvenser. Detta gör att programvaran kan fånga de olika sammanhangen inom vilka ett ord kan förekomma, och eftersom dessa sammanhang tillhandahålls av de verk som används i utbildningen, inklusive upphovsrättsskyddade verk, är de inte godtyckliga. På så sätt bevaras den ursprungliga användningen av orden, uttrycket för originalverket, i AI-systemet. Det kan reproduceras och analyseras, och kan ligga till grund för nya uttryck (som, beroende på de specifika omständigheterna, kan karakteriseras som "avledningsverk" i upphovsrättsligt språkbruk). 

LLM:er behåller uttrycken för de originalverk som de har utbildats i. De bildar interna representationer av texten i specialbyggda vektorrum och, med lämplig input som en trigger, kunde de återskapa de originalverk som användes i deras träning. AI-system drar eviga fördelar av innehållet, inklusive upphovsrättsskyddat innehåll, som används för att utbilda de LLM som de är baserade på. LLMs känner igen sammanhanget för ord baserat på uttrycket av ord i originalverket. Och detta sammanhang gynnar AI-systemet kumulativt över tusentals eller miljontals upphovsrättsskyddade verk som används i utbildningen. Dessa originalverk kan återskapas av AI-systemet eftersom de lagras i vektorer – vektor-rumsrepresentationer av tokens som bevarar deras ursprungliga naturliga språkrepresentation – av det upphovsrättsskyddade verket. Ur ett upphovsrättsligt perspektiv är det kärnan i frågan att avgöra om utbildningsmaterial behålls i LLM, och det är tydligt att svaret på den frågan är ja.

Tidsstämpel:

Mer från DATAVERSITET