Az ügy lényege: A másolás megfejtése az LLM-ek képzésében – DATAVERSITY

Újra kiadta Platón

Követő: 0

Az elmúlt 15 hónapot tükrözve a ChatGPT bevezetését és nyilvános elérhetőségét követően a generatív mesterséges intelligencia és a nagy nyelvi modellek (LLM) terén elért előrehaladás uralta a híreket.

Ennek a haladásnak az építőköve a Transformer modellarchitektúra volt, amelyet a Google kutatóinak egy csoportja vázolt fel a „Csak a figyelem kell.” Ahogy a cím is sugallja, az összes Transformer modell kulcsfontosságú jellemzője a figyelem mechanizmusa, amelyet a cikk a következőképpen definiál:

„A figyelemfüggvény úgy írható le, hogy egy lekérdezést és egy kulcs-érték pár halmazt leképez egy kimenetre, ahol a lekérdezés, a kulcsok, az értékek és a kimenet mind vektorok. A kimenet az értékek súlyozott összegeként kerül kiszámításra, ahol az egyes értékekhez rendelt súlyt a lekérdezésnek a megfelelő kulccsal való kompatibilitási függvénye számítja ki.

A generatív mesterséges intelligencia modellek jellemzője a bemeneti adatok tömeges fogyasztása, amely szövegből, képekből, hangfájlokból, videofájlokból vagy a bemenetek bármilyen kombinációjából állhat (ezt általában „multi-modálisnak” nevezik). Szerzői jogi szempontból fontos kérdés (sok fontos kérdés közül), amelyet fel kell tenni, hogy a képzési anyagok megmaradnak-e nagy nyelvi modell (LLM) különböző LLM-szállítók által gyártott. A kérdés megválaszolásához meg kell értenünk, hogyan dolgozzák fel a szöveges anyagokat. A szövegre összpontosítva az alábbiakban az LLM képzés pontosan ezen aspektusának rövid, nem technikai jellegű leírása található.

Az emberek természetes nyelven kommunikálnak úgy, hogy a szavakat sorozatokba helyezik; a szavak sorrendjére és konkrét alakjára vonatkozó szabályokat az adott nyelv (pl. angol) határozza meg. A szöveget feldolgozó összes szoftverrendszer (és így minden AI-rendszer) architektúrájának lényeges része az, hogy hogyan jelenítsük meg ezt a szöveget, hogy a rendszer funkciói a leghatékonyabban végezhetők el. Ezért a nyelvi modellekben a szöveges input feldolgozásának kulcsfontosságú lépése a felhasználói bevitel felosztása speciális „szavakra”, amelyeket az AI-rendszer megért. Ezeket a különleges szavakat „zsetonoknak” nevezik. Az ezért felelős komponenst „tokenizernek” nevezik. Sokféle tokenizátor létezik. Például az OpenAI és az Azure OpenAI a „Byte-Pair Encoding (BPE)” nevű részszó-tokenizációs módszert használja a Generative Pretrained Transformer (GPT) alapú modelljeikhez. A BPE egy olyan módszer, amely a leggyakrabban előforduló karakter- vagy bájtpárokat egyetlen tokenbe vonja össze, amíg el nem ér egy bizonyos számú token vagy egy szókincs méretet. Minél nagyobb a szókincs, annál változatosabb és kifejezőbb szövegeket tud generálni a modell.

Miután a mesterséges intelligencia rendszer a bemeneti szöveget tokenekre képezte le, a tokeneket számokká kódolja, és az általa feldolgozott szekvenciákat vektorokká alakítja, amelyeket „szóbeágyazásoknak” neveznek. A vektor számok rendezett halmaza – tekintheti úgy, mint egy táblázat sorát vagy oszlopát. Ezek a vektorok olyan tokenek reprezentációi, amelyek megőrzik eredeti természetes nyelvi megjelenítésüket, amelyet szövegként adtak meg. Fontos megérteni a szóbeágyazások szerepét a szerzői jogok tekintetében, mert a beágyazások egész mondatok vagy akár bekezdések reprezentációit (vagy kódolásait) alkotják, így vektorkombinációk esetén akár teljes dokumentumokat is nagy dimenziós vektortérben. Az AI-rendszer ezeken a beágyazásokon keresztül rögzíti és tárolja a természetes nyelvből származó szavak jelentését és kapcsolatait.

A beágyazásokat gyakorlatilag minden olyan feladatban alkalmazzák, amelyet egy generatív AI-rendszer végez (pl. szöveggenerálás, szövegösszegzés, szövegosztályozás, szövegfordítás, képgenerálás, kódgenerálás stb.). A Word-beágyazásokat általában vektoros adatbázisokban tárolják, de a tárolási módok részletes leírása túlmutat ennek a bejegyzésnek a keretein, mivel számos szállító, folyamat és gyakorlat létezik.

Mint említettük, szinte minden LLM a Transformer architektúrán alapul, amely a figyelemmechanizmust hívja elő. Ez utóbbi lehetővé teszi az AI-technológia számára, hogy a teljes mondatokat, sőt a bekezdéseket is egészként tekintse meg, nem pedig puszta karaktersorozatként. Ez lehetővé teszi a szoftver számára, hogy rögzítse azokat a különféle kontextusokat, amelyeken belül egy szó előfordulhat, és mivel ezeket a kontextusokat a képzésben használt művek biztosítják, beleértve a szerzői joggal védett alkotásokat is, nem önkényesek. Ily módon az AI-rendszerben megmarad az eredeti szóhasználat, az eredeti mű kifejezése. Reprodukálható, elemezhető, új kifejezések alapját képezheti (amelyek az adott körülményektől függően a szerzői jogi szóhasználatban „származékos műként” jellemezhetők).

Az LLM-ek megtartják az eredeti művek kifejezéseit, amelyekre képezték őket. Szöveg belső reprezentációit képezik a célra kialakított vektorterekben, és megfelelő bemeneti indítójellel reprodukálhatták a képzés során felhasznált eredeti műveket. Az AI-rendszerek örök hasznot húznak a tartalomból, beleértve a szerzői jog által védett tartalmakat is, amelyeket az alapjukat képező LLM-ek képzésére használnak. Az LLM-ek felismerik a szavak kontextusát az eredeti műben szereplő szavak kifejezése alapján. Ez a kontextus pedig halmozottan előnyös az AI-rendszer számára a képzés során felhasznált szerzői joggal védett művek ezrei vagy milliói tekintetében. Ezeket az eredeti műveket az MI-rendszer újra tudja készíteni, mert a szerzői joggal védett alkotás vektoraiban – az eredeti természetes nyelvi ábrázolásukat megőrző tokenek vektortérbeli reprezentációiban – tárolják. Szerzői jogi szempontból annak meghatározása, hogy a képzési anyagokat megőrzik-e az LLM-ek, a kérdés középpontjában áll, és egyértelmű, hogy a válasz erre a kérdésre igen.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/

Időbélyeg: Február 2, 2024

Időbélyeg: 14. december 2023.

Újra kiadta Platón

DataStax bemutató: Hatékony adatfolyam-adatfolyam felépítése Apache Cassandra és Apache Pulsar segítségével

Karrierem az adatok terén, 46. epizód: Cynthia Cain Fitzgerald, egyetemi menedzser, Business Intelligence Analytics, Antioch University – DATAVERSITY

Mire számíthatunk 2024-ben: A hibrid és többfelhős architektúra dominanciája – DATAVERSITY

Karrierem a Databan 2. évad 2. rész: John Ladley, igazgató, Sonrai – DATAVERSITY

A data.world a Snowflake-kel integrálva új adatminőségi mérőszámokat biztosít – DATAVERSITY

December 12. Data-Ed webinárium: Adatkezelési legjobb gyakorlatok – DATAVERSITY

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók