Az ügy lényege: A másolás megfejtése az LLM-ek képzésében – DATAVERSITY

A lényeg: A másolás elpusztítása az LLM-ek képzésében – DATAVERSITY

Forrás csomópont: 3093102

Az elmúlt 15 hónapot tükrözve a ChatGPT bevezetését és nyilvános elérhetőségét követően a generatív mesterséges intelligencia és a nagy nyelvi modellek (LLM) terén elért előrehaladás uralta a híreket. 

Ennek a haladásnak az építőköve a Transformer modellarchitektúra volt, amelyet a Google kutatóinak egy csoportja vázolt fel a „Csak a figyelem kell.” Ahogy a cím is sugallja, az összes Transformer modell kulcsfontosságú jellemzője a figyelem mechanizmusa, amelyet a cikk a következőképpen definiál:

„A figyelemfüggvény úgy írható le, hogy egy lekérdezést és egy kulcs-érték pár halmazt leképez egy kimenetre, ahol a lekérdezés, a kulcsok, az értékek és a kimenet mind vektorok. A kimenet az értékek súlyozott összegeként kerül kiszámításra, ahol az egyes értékekhez rendelt súlyt a lekérdezésnek a megfelelő kulccsal való kompatibilitási függvénye számítja ki.

A generatív mesterséges intelligencia modellek jellemzője a bemeneti adatok tömeges fogyasztása, amely szövegből, képekből, hangfájlokból, videofájlokból vagy a bemenetek bármilyen kombinációjából állhat (ezt általában „multi-modálisnak” nevezik). Szerzői jogi szempontból fontos kérdés (sok fontos kérdés közül), amelyet fel kell tenni, hogy a képzési anyagok megmaradnak-e nagy nyelvi modell (LLM) különböző LLM-szállítók által gyártott. A kérdés megválaszolásához meg kell értenünk, hogyan dolgozzák fel a szöveges anyagokat. A szövegre összpontosítva az alábbiakban az LLM képzés pontosan ezen aspektusának rövid, nem technikai jellegű leírása található. 

Az emberek természetes nyelven kommunikálnak úgy, hogy a szavakat sorozatokba helyezik; a szavak sorrendjére és konkrét alakjára vonatkozó szabályokat az adott nyelv (pl. angol) határozza meg. A szöveget feldolgozó összes szoftverrendszer (és így minden AI-rendszer) architektúrájának lényeges része az, hogy hogyan jelenítsük meg ezt a szöveget, hogy a rendszer funkciói a leghatékonyabban végezhetők el. Ezért a nyelvi modellekben a szöveges input feldolgozásának kulcsfontosságú lépése a felhasználói bevitel felosztása speciális „szavakra”, amelyeket az AI-rendszer megért. Ezeket a különleges szavakat „zsetonoknak” nevezik. Az ezért felelős komponenst „tokenizernek” nevezik. Sokféle tokenizátor létezik. Például az OpenAI és az Azure OpenAI a „Byte-Pair Encoding (BPE)” nevű részszó-tokenizációs módszert használja a Generative Pretrained Transformer (GPT) alapú modelljeikhez. A BPE egy olyan módszer, amely a leggyakrabban előforduló karakter- vagy bájtpárokat egyetlen tokenbe vonja össze, amíg el nem ér egy bizonyos számú token vagy egy szókincs méretet. Minél nagyobb a szókincs, annál változatosabb és kifejezőbb szövegeket tud generálni a modell.

Miután a mesterséges intelligencia rendszer a bemeneti szöveget tokenekre képezte le, a tokeneket számokká kódolja, és az általa feldolgozott szekvenciákat vektorokká alakítja, amelyeket „szóbeágyazásoknak” neveznek. A vektor számok rendezett halmaza – tekintheti úgy, mint egy táblázat sorát vagy oszlopát. Ezek a vektorok olyan tokenek reprezentációi, amelyek megőrzik eredeti természetes nyelvi megjelenítésüket, amelyet szövegként adtak meg. Fontos megérteni a szóbeágyazások szerepét a szerzői jogok tekintetében, mert a beágyazások egész mondatok vagy akár bekezdések reprezentációit (vagy kódolásait) alkotják, így vektorkombinációk esetén akár teljes dokumentumokat is nagy dimenziós vektortérben. Az AI-rendszer ezeken a beágyazásokon keresztül rögzíti és tárolja a természetes nyelvből származó szavak jelentését és kapcsolatait. 

A beágyazásokat gyakorlatilag minden olyan feladatban alkalmazzák, amelyet egy generatív AI-rendszer végez (pl. szöveggenerálás, szövegösszegzés, szövegosztályozás, szövegfordítás, képgenerálás, kódgenerálás stb.). A Word-beágyazásokat általában vektoros adatbázisokban tárolják, de a tárolási módok részletes leírása túlmutat ennek a bejegyzésnek a keretein, mivel számos szállító, folyamat és gyakorlat létezik.

Mint említettük, szinte minden LLM a Transformer architektúrán alapul, amely a figyelemmechanizmust hívja elő. Ez utóbbi lehetővé teszi az AI-technológia számára, hogy a teljes mondatokat, sőt a bekezdéseket is egészként tekintse meg, nem pedig puszta karaktersorozatként. Ez lehetővé teszi a szoftver számára, hogy rögzítse azokat a különféle kontextusokat, amelyeken belül egy szó előfordulhat, és mivel ezeket a kontextusokat a képzésben használt művek biztosítják, beleértve a szerzői joggal védett alkotásokat is, nem önkényesek. Ily módon az AI-rendszerben megmarad az eredeti szóhasználat, az eredeti mű kifejezése. Reprodukálható, elemezhető, új kifejezések alapját képezheti (amelyek az adott körülményektől függően a szerzői jogi szóhasználatban „származékos műként” jellemezhetők). 

Az LLM-ek megtartják az eredeti művek kifejezéseit, amelyekre képezték őket. Szöveg belső reprezentációit képezik a célra kialakított vektorterekben, és megfelelő bemeneti indítójellel reprodukálhatták a képzés során felhasznált eredeti műveket. Az AI-rendszerek örök hasznot húznak a tartalomból, beleértve a szerzői jog által védett tartalmakat is, amelyeket az alapjukat képező LLM-ek képzésére használnak. Az LLM-ek felismerik a szavak kontextusát az eredeti műben szereplő szavak kifejezése alapján. Ez a kontextus pedig halmozottan előnyös az AI-rendszer számára a képzés során felhasznált szerzői joggal védett művek ezrei vagy milliói tekintetében. Ezeket az eredeti műveket az MI-rendszer újra tudja készíteni, mert a szerzői joggal védett alkotás vektoraiban – az eredeti természetes nyelvi ábrázolásukat megőrző tokenek vektortérbeli reprezentációiban – tárolják. Szerzői jogi szempontból annak meghatározása, hogy a képzési anyagokat megőrzik-e az LLM-ek, a kérdés középpontjában áll, és egyértelmű, hogy a válasz erre a kérdésre igen.

Időbélyeg:

Még több ADATVERZITÁS