Asian ydin: Kopioinnin mysteerin poistaminen LLM:n koulutuksessa – DATAVERSITY

Asian ydin: Kopioinnin mysteerin poistaminen LLM:n koulutuksessa – DATAVERSITY

Lähdesolmu: 3093102

Viimeisten 15 kuukauden aikana ChatGPT:n käyttöönoton ja yleisön saatavuuden jälkeen saavutettu edistys generatiivisissa tekoälyissä ja suurissa kielimalleissa on hallinnut otsikoita. 

Tämän edistyksen rakennuspalikka oli Transformer-malliarkkitehtuuri, jonka Googlen tutkijaryhmä hahmotteli artikkelissaan "Huomio on kaikki mitä tarvitset.” Kuten otsikosta voi päätellä, kaikkien Transformer-mallien keskeinen ominaisuus on huomiomekanismi, joka on määritelty paperissa seuraavasti:

"Huomiofunktio voidaan kuvata kyselyn ja avain-arvo-parien yhdistämisenä lähtöön, jossa kysely, avaimet, arvot ja tulos ovat kaikki vektoreita. Tulos lasketaan arvojen painotettuna summana, jossa jokaiselle arvolle annettu paino lasketaan kyselyn yhteensopivuusfunktiolla vastaavan avaimen kanssa.

Generatiivisten AI-mallien ominaisuus on massiivinen syötteiden kulutus, joka voi koostua tekstistä, kuvista, äänitiedostoista, videotiedostoista tai mistä tahansa syötteiden yhdistelmästä (tapausta kutsutaan yleensä "multimodaaliseksi"). Tekijänoikeuksien näkökulmasta tärkeä kysymys (monista tärkeistä kysymyksistä) on kysyttävä, säilytetäänkö koulutusmateriaalia suuri kielimalli (LLM) eri LLM-myyjien tuottamia. Jotta voimme vastata tähän kysymykseen, meidän on ymmärrettävä, kuinka tekstimateriaalia käsitellään. Tekstiin keskittyen seuraava on lyhyt, ei-tekninen kuvaus juuri tästä LLM-koulutuksen osa-alueesta. 

Ihmiset kommunikoivat luonnollisella kielellä asettamalla sanoja sekvensseihin; sanan järjestystä ja tiettyä muotoa koskevat säännöt määräytyvät tietyn kielen (esim. englannin) mukaan. Olennainen osa kaikkien tekstiä käsittelevien ohjelmistojärjestelmien arkkitehtuuria (ja siten kaikkien sitä käsittelevien tekoälyjärjestelmien) arkkitehtuurissa on tekstin esittäminen niin, että järjestelmän toiminnot voidaan suorittaa tehokkaimmin. Siksi keskeinen vaihe tekstisyötteen käsittelyssä kielimalleissa on käyttäjän syötteen jakaminen erityisiksi "sanoiksi", joita tekoälyjärjestelmä voi ymmärtää. Näitä erityisiä sanoja kutsutaan "tokeneiksi". Tästä vastuussa olevaa komponenttia kutsutaan "tokenizeriksi". Tokenisaattoreita on monenlaisia. Esimerkiksi OpenAI ja Azure OpenAI käyttävät "Byte-Pair Encoding" (BPE) -nimistä alisanojen tokenointimenetelmää GPT (Generative Pretrained Transformer) -pohjaisissa malleissaan. BPE on menetelmä, joka yhdistää yleisimmin esiintyvät merkki- tai tavuparit yhdeksi tokeniksi, kunnes saavutetaan tietty määrä tunnuksia tai sanaston koko. Mitä suurempi sanaston koko on, sitä monipuolisempia ja ilmeikkäämpiä tekstejä malli voi tuottaa.

Kun tekoälyjärjestelmä on yhdistänyt syötetyn tekstin tunnuksiksi, se koodaa tunnukset numeroiksi ja muuntaa vektoreiksi prosessoimat sekvenssit, joita kutsutaan "sanojen upotuksiksi". Vektori on järjestetty numerosarja – voit ajatella sitä taulukon rivinä tai sarakkeena. Nämä vektorit ovat esityksiä tokeneista, jotka säilyttävät alkuperäisen luonnollisen kielen esityksen, joka annettiin tekstinä. On tärkeää ymmärtää sanan upotusten rooli tekijänoikeudessa, koska upotukset muodostavat esityksiä (tai koodauksia) kokonaisista lauseista tai jopa kappaleista, ja siksi vektoriyhdistelmissä jopa kokonaisia ​​dokumentteja suuriulotteisessa vektoriavaruudessa. Näiden upotusten kautta tekoälyjärjestelmä kaappaa ja tallentaa sanojen merkitykset ja suhteet luonnollisesta kielestä. 

Upotuksia käytetään käytännössä kaikissa generatiivisen tekoälyjärjestelmän suorittamissa tehtävissä (esim. tekstin luominen, tekstin yhteenveto, tekstin luokittelu, tekstin kääntäminen, kuvan luominen, koodin luominen ja niin edelleen). Wordin upotukset tallennetaan yleensä vektoritietokantoihin, mutta yksityiskohtainen kuvaus kaikista tallennusmenetelmistä ei kuulu tämän viestin piiriin, koska käytössä on monenlaisia ​​toimittajia, prosesseja ja käytäntöjä.

Kuten mainittiin, melkein kaikki LLM:t perustuvat Transformer-arkkitehtuuriin, joka vetoaa huomiomekanismiin. Jälkimmäinen mahdollistaa tekoälytekniikan tarkastella kokonaisia ​​lauseita ja jopa kappaleita kokonaisuutena pelkkinä merkkijonoina. Tämä mahdollistaa ohjelmiston kaapata eri kontekstit, joissa sana voi esiintyä, ja koska nämä kontekstit ovat koulutuksessa käytetyt teokset, mukaan lukien tekijänoikeudella suojatut teokset, ne eivät ole mielivaltaisia. Tällä tavoin sanojen alkuperäinen käyttö, alkuperäisen teoksen ilmaisu, säilyy tekoälyjärjestelmässä. Sitä voidaan toistaa ja analysoida, ja se voi muodostaa perustan uusille ilmaisuille (joita erityisolosuhteista riippuen voidaan luonnehtia "johdannaisteokseksi" tekijänoikeuskielellä). 

LLM:t säilyttävät alkuperäisten teosten ilmaisut, joihin heidät on koulutettu. Ne muodostavat tekstin sisäisiä esityksiä tarkoitukseen rakennetuissa vektoriavaruuksissa, ja sopivan syötteen laukaisevana syöttönä ne pystyivät toistamaan koulutuksessaan käytetyt alkuperäiset teokset. Tekoälyjärjestelmät saavat ikuisia etuja sisällöstä, mukaan lukien tekijänoikeudella suojatusta sisällöstä, jota käytetään niiden LLM:ien kouluttamiseen, joihin ne perustuvat. LLM:t tunnistavat sanojen kontekstin alkuperäisen teoksen sanojen ilmaisun perusteella. Ja tämä konteksti hyödyttää kumulatiivisesti tekoälyjärjestelmää tuhansien tai miljoonien koulutuksessa käytettyjen tekijänoikeudella suojattujen teosten osalta. Tekoälyjärjestelmä voi luoda nämä alkuperäiset teokset uudelleen, koska ne on tallennettu tekijänoikeudella suojatun teoksen vektoreihin – vektoriavaruuden esityksiin symboleista, jotka säilyttävät alkuperäisen luonnollisen kielen esityksensä. Tekijänoikeuksien näkökulmasta sen määrittäminen, säilytetäänkö koulutusmateriaalia LLM:issä, on asian ydin, ja on selvää, että vastaus tähän kysymykseen on kyllä.

Aikaleima:

Lisää aiheesta DATAVERSITEETTI