Az elmúlt 15 hónapot tükrözve a ChatGPT bevezetését és nyilvános elérhetőségét követően a generatív mesterséges intelligencia és a nagy nyelvi modellek (LLM) terén elért előrehaladás uralta a híreket.
Ennek a haladásnak az építőköve a Transformer modellarchitektúra volt, amelyet a Google kutatóinak egy csoportja vázolt fel a „Csak a figyelem kell.” Ahogy a cím is sugallja, az összes Transformer modell kulcsfontosságú jellemzője a figyelem mechanizmusa, amelyet a cikk a következőképpen definiál:
„A figyelemfüggvény úgy írható le, hogy egy lekérdezést és egy kulcs-érték pár halmazt leképez egy kimenetre, ahol a lekérdezés, a kulcsok, az értékek és a kimenet mind vektorok. A kimenet az értékek súlyozott összegeként kerül kiszámításra, ahol az egyes értékekhez rendelt súlyt a lekérdezésnek a megfelelő kulccsal való kompatibilitási függvénye számítja ki.
A generatív mesterséges intelligencia modellek jellemzője a bemeneti adatok tömeges fogyasztása, amely szövegből, képekből, hangfájlokból, videofájlokból vagy a bemenetek bármilyen kombinációjából állhat (ezt általában „multi-modálisnak” nevezik). Szerzői jogi szempontból fontos kérdés (sok fontos kérdés közül), amelyet fel kell tenni, hogy a képzési anyagok megmaradnak-e nagy nyelvi modell (LLM) különböző LLM-szállítók által gyártott. A kérdés megválaszolásához meg kell értenünk, hogyan dolgozzák fel a szöveges anyagokat. A szövegre összpontosítva az alábbiakban az LLM képzés pontosan ezen aspektusának rövid, nem technikai jellegű leírása található.
Az emberek természetes nyelven kommunikálnak úgy, hogy a szavakat sorozatokba helyezik; a szavak sorrendjére és konkrét alakjára vonatkozó szabályokat az adott nyelv (pl. angol) határozza meg. A szöveget feldolgozó összes szoftverrendszer (és így minden AI-rendszer) architektúrájának lényeges része az, hogy hogyan jelenítsük meg ezt a szöveget, hogy a rendszer funkciói a leghatékonyabban végezhetők el. Ezért a nyelvi modellekben a szöveges input feldolgozásának kulcsfontosságú lépése a felhasználói bevitel felosztása speciális „szavakra”, amelyeket az AI-rendszer megért. Ezeket a különleges szavakat „zsetonoknak” nevezik. Az ezért felelős komponenst „tokenizernek” nevezik. Sokféle tokenizátor létezik. Például az OpenAI és az Azure OpenAI a „Byte-Pair Encoding (BPE)” nevű részszó-tokenizációs módszert használja a Generative Pretrained Transformer (GPT) alapú modelljeikhez. A BPE egy olyan módszer, amely a leggyakrabban előforduló karakter- vagy bájtpárokat egyetlen tokenbe vonja össze, amíg el nem ér egy bizonyos számú token vagy egy szókincs méretet. Minél nagyobb a szókincs, annál változatosabb és kifejezőbb szövegeket tud generálni a modell.
Miután a mesterséges intelligencia rendszer a bemeneti szöveget tokenekre képezte le, a tokeneket számokká kódolja, és az általa feldolgozott szekvenciákat vektorokká alakítja, amelyeket „szóbeágyazásoknak” neveznek. A vektor számok rendezett halmaza – tekintheti úgy, mint egy táblázat sorát vagy oszlopát. Ezek a vektorok olyan tokenek reprezentációi, amelyek megőrzik eredeti természetes nyelvi megjelenítésüket, amelyet szövegként adtak meg. Fontos megérteni a szóbeágyazások szerepét a szerzői jogok tekintetében, mert a beágyazások egész mondatok vagy akár bekezdések reprezentációit (vagy kódolásait) alkotják, így vektorkombinációk esetén akár teljes dokumentumokat is nagy dimenziós vektortérben. Az AI-rendszer ezeken a beágyazásokon keresztül rögzíti és tárolja a természetes nyelvből származó szavak jelentését és kapcsolatait.
A beágyazásokat gyakorlatilag minden olyan feladatban alkalmazzák, amelyet egy generatív AI-rendszer végez (pl. szöveggenerálás, szövegösszegzés, szövegosztályozás, szövegfordítás, képgenerálás, kódgenerálás stb.). A Word-beágyazásokat általában vektoros adatbázisokban tárolják, de a tárolási módok részletes leírása túlmutat ennek a bejegyzésnek a keretein, mivel számos szállító, folyamat és gyakorlat létezik.
Mint említettük, szinte minden LLM a Transformer architektúrán alapul, amely a figyelemmechanizmust hívja elő. Ez utóbbi lehetővé teszi az AI-technológia számára, hogy a teljes mondatokat, sőt a bekezdéseket is egészként tekintse meg, nem pedig puszta karaktersorozatként. Ez lehetővé teszi a szoftver számára, hogy rögzítse azokat a különféle kontextusokat, amelyeken belül egy szó előfordulhat, és mivel ezeket a kontextusokat a képzésben használt művek biztosítják, beleértve a szerzői joggal védett alkotásokat is, nem önkényesek. Ily módon az AI-rendszerben megmarad az eredeti szóhasználat, az eredeti mű kifejezése. Reprodukálható, elemezhető, új kifejezések alapját képezheti (amelyek az adott körülményektől függően a szerzői jogi szóhasználatban „származékos műként” jellemezhetők).
Az LLM-ek megtartják az eredeti művek kifejezéseit, amelyekre képezték őket. Szöveg belső reprezentációit képezik a célra kialakított vektorterekben, és megfelelő bemeneti indítójellel reprodukálhatták a képzés során felhasznált eredeti műveket. Az AI-rendszerek örök hasznot húznak a tartalomból, beleértve a szerzői jog által védett tartalmakat is, amelyeket az alapjukat képező LLM-ek képzésére használnak. Az LLM-ek felismerik a szavak kontextusát az eredeti műben szereplő szavak kifejezése alapján. Ez a kontextus pedig halmozottan előnyös az AI-rendszer számára a képzés során felhasznált szerzői joggal védett művek ezrei vagy milliói tekintetében. Ezeket az eredeti műveket az MI-rendszer újra tudja készíteni, mert a szerzői joggal védett alkotás vektoraiban – az eredeti természetes nyelvi ábrázolásukat megőrző tokenek vektortérbeli reprezentációiban – tárolják. Szerzői jogi szempontból annak meghatározása, hogy a képzési anyagokat megőrzik-e az LLM-ek, a kérdés középpontjában áll, és egyértelmű, hogy a válasz erre a kérdésre igen.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/
- :van
- :is
- :nem
- :ahol
- 15%
- a
- Rólunk
- át
- Ad
- AI
- AI modellek
- AI rendszerek
- Minden termék
- lehetővé teszi, hogy
- majdnem
- an
- elemzett
- és a
- válasz
- bármilyen
- megközelít
- megfelelő
- önkényes
- építészet
- VANNAK
- AS
- kérdez
- megjelenés
- kijelölt
- At
- figyelem
- hang-
- elérhetőség
- Égszínkék
- alapján
- alap
- BE
- mert
- óta
- Előnyök
- Túl
- Blokk
- Épület
- de
- by
- hívott
- TUD
- elfog
- fogások
- eset
- bizonyos
- jellegzetes
- jellemzett
- karakter
- ChatGPT
- körülmények
- besorolás
- világos
- kód
- Oszlop
- kombináció
- kombinációk
- jön
- kommunikálni
- kompatibilitás
- összetevő
- számított
- fogyasztás
- tartalom
- kontextus
- kontextusok
- másolás
- copyright
- Megfelelő
- tudott
- dátum
- adatbázisok
- ADATVERZITÁS
- meghatározott
- attól
- származik
- leírt
- leírás
- részletes
- meghatározó
- diktált
- számos
- DM
- do
- dokumentumok
- domináló
- e
- minden
- eredményesen
- kódolás
- Angol
- Egész
- Jogosult
- alapvető
- Eter (ETH)
- Még
- esemény
- Minden
- pontosan
- példa
- kifejezés
- kifejezések
- kifejező
- Funkció
- Fájlok
- összpontosítás
- következő
- következik
- A
- forma
- gyakran
- ból ből
- funkció
- funkciók
- generál
- generáció
- nemző
- Generatív AI
- adott
- Legyen
- Headlines
- Szív
- segít
- Hogyan
- How To
- HTTPS
- kép
- képalkotás
- képek
- fontos
- in
- Beleértve
- bemenet
- bemenet
- belső
- bele
- Bevezetés
- behívja
- IT
- Kulcs
- kulcsok
- nyelv
- nagy
- nagyobb
- llm
- készült
- sok
- térképészet
- tömeges
- anyagok
- Anyag
- Lehet..
- jelenti
- mechanizmus
- említett
- mers
- összeolvad
- módszer
- Több millió
- modell
- modellek
- hónap
- több
- a legtöbb
- Természetes
- Természetes nyelv
- Szükség
- NeurIPS
- Új
- Hírlevél
- nem műszaki
- szám
- számok
- előfordul
- előforduló
- of
- on
- OpenAI
- or
- eredeti
- vázolt
- teljesítmény
- párok
- Papír
- rész
- múlt
- teljesített
- Előadja
- Örökös
- perspektíva
- forgalomba
- Plató
- Platón adatintelligencia
- PlatoData
- állás
- gyakorlatilag
- gyakorlat
- konzervált
- folyamat
- feldolgozott
- Folyamatok
- feldolgozás
- Készült
- Haladás
- feltéve,
- nyilvános
- kérdés
- kérdés
- Kérdések
- Inkább
- elérte
- elismerik
- említett
- Kapcsolatok
- képvisel
- képviselet
- kutatók
- felelős
- megtartása
- visszatartott
- Szerep
- SOR
- szabályok
- hatálya
- szekvenálás
- készlet
- egyetlen
- Méret
- So
- szoftver
- Hely
- terek
- speciális
- különleges
- Lépés
- tárolás
- memorizált
- árnyékolók
- javasolja,
- összeg
- rendszer
- Systems
- táblázat
- Feladat
- csapat
- Technológia
- szöveg
- Szöveg osztályozása
- szöveggenerálás
- szövegi
- mint
- hogy
- A
- azok
- Ott.
- ebből adódóan
- Ezek
- ők
- Szerintem
- ezt
- azok
- ezer
- Keresztül
- Cím
- nak nek
- jelképes
- tokenizálás
- tokenek
- Vonat
- kiképzett
- Képzések
- transzformátor
- Fordítás
- kiváltó
- típusok
- megért
- -ig
- upon
- használ
- használt
- használó
- rendszerint
- érték
- Értékek
- fajta
- különféle
- gyártók
- videó
- Megnézem
- megtekinthető
- volt
- Út..
- we
- heti
- súly
- voltak
- Mit
- amikor
- vajon
- ami
- egész
- széles
- val vel
- belül
- szó
- szavak
- Munka
- művek
- Igen
- te
- zephyrnet