A legerősebb 7 nyelvi (LLM) és látásnyelvi modell (VLM), amely átalakítja az AI-t 2023-ban

A legerősebb 7 nyelvi (LLM) és látásnyelvi modell (VLM), amely átalakítja az AI-t 2023-ban

Forrás csomópont: 2757531

BLIP-2, látásnyelvi modellek

A mesterséges intelligencia gyorsan fejlődő területén a természetes nyelvi feldolgozás a kutatók és a fejlesztők fókuszpontjává vált. Alapjaira építve Transzformátor architektúra és a A BERT kétirányú frissítése, számos úttörő nyelvi modell jelent meg az elmúlt években, feszegetve annak határait, hogy a gépek mit tudnak megérteni és generálni.

Ebben a cikkben a nagyszabású nyelvi modellek világának legújabb vívmányaival foglalkozunk, feltárva az egyes modellek által bevezetett fejlesztéseket, azok képességeit és lehetséges alkalmazásait. Megvizsgáljuk a Visual Language Models (VLM-eket) is, amelyek nemcsak szöveges, hanem vizuális adatok feldolgozására is alkalmasak.

Ha szeretne kihagyni, itt vannak az általunk bemutatott nyelvi modellek:

  1. GPT-3 az OpenAI-tól
  2. LaMDA a Google-tól
  3. PaLM a Google-tól
  4. Flamingo a DeepMindtől
  5. BLIP-2 a Salesforce-tól
  6. LLaMA a Meta AI-tól
  7. GPT-4 az OpenAI-tól

Ha ez a mélyreható oktatási tartalom hasznos az Ön számára, megteheti iratkozzon fel AI kutatási levelezőlistánkra figyelmeztetni kell, ha új anyagot adunk ki. 

A legfontosabb nagynyelvi modellek (LLM-ek) és vizuális nyelvi modellek (VLM-ek) 2023-ban

1. OpenAI GPT-3

Összegzésként 

Az OpenAI csapata bevezette a GPT-3-at a címkézett adatkészlet alternatívájaként minden új nyelvi feladathoz. Azt sugalmazták, hogy a nyelvi modellek felnagyítása javíthatja a feladat-agnosztikus néhány lépéses teljesítményt. Ennek a javaslatnak a tesztelésére kiképeztek egy 175B-paraméteres autoregresszív nyelvi modellt, az ún GPT-3, és értékelte a teljesítményét több mint két tucat NLP-feladaton. A néhány lépéses tanulás, az egyszeri tanulás és a zero-shot tanulás alapján végzett értékelés azt mutatta, hogy a GPT-3 ígéretes eredményeket ért el, sőt esetenként felülmúlta a finomhangolt modellekkel elért legkorszerűbb eredményeket. 

Mi a cél? 

  • Alternatív megoldást javasolni a meglévő problémára, amikor minden új nyelvi feladathoz címkézett adatkészletre van szükség.

Hogyan közelítik meg a problémát?

  • A kutatók a nyelvi modellek bővítését javasolták, hogy javítsák a feladat-agnosztikus néhány lövés teljesítményét. 
  • A GPT-3 modell ugyanazt a modellt és architektúrát használja, mint a GPT-2, beleértve a módosított inicializálást, előnormalizálást és reverzibilis tokenizálást.
  • A GPT-2-vel ellentétben azonban a transzformátor rétegeiben váltakozó sűrű és helyi sávos, ritka figyelemmintákat használ, mint a Ritka transzformátor.
GPT-3

Melyek az eredmények?

  • A finomhangolás nélküli GPT-3 modell ígéretes eredményeket ér el számos NLP-feladatnál, sőt időnként felülmúlja az adott feladatra finomhangolt legmodernebb modelleket:
    • A CoQA benchmark, 81.5 F1 a nulla lövés beállításban, 84.0 F1 az egyszeri beállításban és 85.0 F1 a néhány lövés beállításban, szemben a finomhangolt SOTA 90.7 F1 pontszámával.
    • A TriviaQA benchmark, 64.3%-os pontosság a nulla lövés beállításnál, 68.0% az egylövetű beállításnál, és 71.2% a néhány lövéses beállításnál, ami 68%-kal haladja meg a technika állását (3.2%).
    • A LAMBADA adathalmaz, 76.2%-os pontosság a nulla lövés beállításnál, 72.5% az egyszeri beállításnál, és 86.4% a néhány felvételes beállításnál, ami 68%-kal meghaladja a technika állását (18%).
  • A 175B paraméterű GPT-3 modell által generált hírcikkek emberi értékelések szerint nehezen megkülönböztethetők a valódiaktól (alig haladja meg a ~52%-os esélyszintet). 
  • A GPT-3 figyelemre méltó teljesítménye ellenére vegyes értékeléseket kapott az AI közösségtől:
    • „A GPT-3 felhajtás túl sok. Lenyűgöző (köszönjük a szép bókokat!), de ennek ellenére vannak súlyos gyengeségei, és néha nagyon ostoba hibákat is elkövet. Az AI meg fogja változtatni a világot, de a GPT-3 csak egy nagyon korai pillantás. Még sok mindent meg kell találnunk.” – Sam Altman, az OpenAI vezérigazgatója és társalapítója.
    • „Megdöbbentett, milyen nehéz olyan muszlimokról szóló szöveget generálni a GPT-3-ból, aminek semmi köze az erőszakhoz… vagy a meggyilkoláshoz…” – Abubakar Abid, a Gradio vezérigazgatója és alapítója.
    • "Nem. A GPT-3 alapvetően nem érti a világot, amelyről beszél. A korpusz további bővítése lehetővé teszi számára, hogy hitelesebb pastiche-t generáljon, de nem javítja a világ megértésének alapvető hiányát. A GPT-4 demói továbbra is emberi cseresznyeszedést igényelnek.” – Gary Marcus, a Robust.ai vezérigazgatója és alapítója.
    • "A GPT3 látványos teljesítményének a jövőbe való extrapolálása azt sugallja, hogy az életre, az univerzumra és mindenre a válasz mindössze 4.398 billió paraméter." – Geoffrey Hinton, Turing-díjas.

Hol lehet többet megtudni erről a kutatásról?

Hol kaphat implementációs kódot?

  • Maga a kód nem érhető el, de néhány adatkészlet-statisztikát a GPT-2048 feltétel nélküli, szűretlen 3-token mintáival együtt közzétesznek GitHub.

2. LaMDA a Google-tól

Összegzésként 

Lanyelv Models for Dpárbeszéd Aalkalmazások (TheMDA) olyan Transformer-alapú neurális nyelvi modellek csoportjának finomhangolásával jöttek létre, amelyeket kifejezetten párbeszédekhez terveztek. Ezek a modellek maximum 137B paraméterrel rendelkeznek, és külső tudásforrások használatára képezték ki őket. A LaMDA fejlesztői három kulcsfontosságú célt tartottak szem előtt – a minőséget, a biztonságot és a megalapozottságot. Az eredmények azt mutatták, hogy a finomhangolás lehetővé teszi a minőségi különbségek emberi szintre való szűkítését, de a modell teljesítménye a biztonság és a megalapozottság tekintetében az emberi szint alatt maradt. 

Google Bard, felszabaduló a közelmúltban a ChatGPT alternatívájaként a LaMDA hajtja. Annak ellenére, hogy Bardot gyakran úgy címkézik unalmas, ez annak bizonyítéka, hogy a Google elkötelezte magát a biztonság előtérbe helyezése mellett, még a Google és a Microsoft közötti heves rivalizálás közepette is a generatív mesterségesintelligencia területén.

Mi a cél? 

  • Modell felépítése nyílt tartományú párbeszédes alkalmazásokhoz, ahol a párbeszéd-ügynök bármilyen témáról képes beszélgetni, ésszerű, a kontextusra jellemző, megbízható forrásokon alapuló és etikus válaszokkal.

Hogyan közelítik meg a problémát?

  • A LaMDA erre épül Transzformátor, egy neurális hálózati architektúra, amelyet a Google Research talált ki és nyitott forráskóddal 2017-ben.
    • Más nagy nyelvi modellekhez hasonlóan, beleértve a BERT-et és a GPT-3-at, a LaMDA-t is terabájtnyi szöveges adatra képezik ki, hogy megtanulják, hogyan kapcsolódnak egymáshoz a szavak, majd megjósolja, milyen szavak következnek majd. 
    • A legtöbb nyelvi modelltől eltérően azonban a LaMDA-t a párbeszédre képezték ki, hogy felismerje azokat az árnyalatokat, amelyek megkülönböztetik a nyílt végű beszélgetést a nyelv más formáitól.
  • A modellt finomhangolták is, hogy javítsák válaszai érzékenységét, biztonságát és specifikusságát. Míg az olyan kifejezések, mint „ez szép” és „nem tudom”, sok párbeszédes forgatókönyvben értelmesek lehetnek, nem valószínű, hogy érdekes és vonzó beszélgetésekhez vezetnek.
    • A LaMDA generátor először több jelölt választ generál, amelyeket aszerint pontoznak, hogy mennyire biztonságosak, értelmesek, konkrétak és érdekesek. A rendszer kiszűri az alacsony biztonsági pontszámú válaszokat, majd válaszként a legjobb eredményt választja ki.
LaMDA párbeszéd példa

Melyek az eredmények?

  • Számos kísérlet bizonyítja, hogy a LaMDA számos témában részt vehet nyitott végű beszélgetésekben.
  • Egy sor kvalitatív értékelés megerősítette, hogy a modell válaszai általában ésszerűek, konkrétak, érdekesek és megbízható külső forrásokon alapulnak, de van még mit javítani.
  • Az eddig elért haladás ellenére a szerzők elismerik, hogy a modellnek még mindig sok korlátja van, amelyek nem megfelelő vagy akár káros válaszokat eredményezhetnek.

Hol lehet többet megtudni erről a kutatásról?

Hol kaphat implementációs kódot?

  • A LaMDA képzés előtti architektúrájának nyílt forráskódú PyTorch-megvalósítása elérhető itt GitHub.

3. PaLM a Google-tól

Összegzésként 

Pathways Language Model (Tenyér) egy 540 milliárdos paraméteres, Transformer-alapú nyelvi modell. A PaLM-et 6144 TPU v4 chipre oktatták a Pathways segítségével, egy új ML rendszerrel a több TPU Pod-on keresztüli hatékony edzéshez. A modell bemutatja a skálázás előnyeit a néhány lépésben történő tanulás során, és a legkorszerűbb eredményeket éri el több száz nyelvértési és generációs benchmarkon. A PaLM felülmúlja a finomhangolt, legmodernebb modelleket a többlépcsős érvelési feladatokban, és meghaladja az átlagos emberi teljesítményt a BIG-benchmarkon.

Mi a cél? 

  • Annak jobb megértése érdekében, hogy a nagy nyelvi modellek skálázása hogyan befolyásolja a néhány lépéses tanulást.

Hogyan közelítik meg a problémát?

  • A kulcsötlet egy 540 milliárd paraméterű nyelvi modell képzésének méretezése a Pathways rendszerrel:
    • A csapat adatpárhuzamot használt a Pod szintjén két Cloud TPU v4 Pod között, miközben szabványos adatokat és modell párhuzamosságot használt az egyes Podokon belül.
    • A képzést 6144 TPU v4 chipre tudták méretezni, ami az eddigi legnagyobb képzéshez használt TPU-alapú rendszerkonfiguráció.
    • A modell 57.8%-os képzési hatékonyságot ért el a hardver FLOP-ok kihasználtságában, ami, ahogy a szerzők állítják, az eddig elért legmagasabb képzési hatékonyság a nagy nyelvi modelleknél ezen a skálán. 
  • A PaLM-modell képzési adatai között szerepelt az angol és többnyelvű adatkészletek kombinációja, amelyek kiváló minőségű webes dokumentumokat, könyveket, Wikipédiát, beszélgetéseket és GitHub-kódot tartalmaztak.
PaLM modell a Google-tól

Melyek az eredmények?

  • Számos kísérlet bizonyítja, hogy a modell teljesítménye meredeken nőtt, ahogy a csapat a legnagyobb modelljére méretezte.
  • A PaLM 540B áttörő teljesítményt ért el számos nagyon nehéz feladatban:
    • Nyelvértés és -generálás. A bevezetett modell 28 feladatból 29-ban felülmúlta a korábbi nagymodellek néhány ütéses teljesítményét, amelyek közé tartoznak a kérdések megválaszolása, a zárás és a mondatkiegészítő feladatok, a szövegkörnyezetbe illeszkedő szövegértési feladatok, a józan ésszel kapcsolatos érvelési feladatok, a SuperGLUE feladatok, és több. A PaLM BIG-bench feladatokon végzett teljesítménye azt mutatta, hogy képes megkülönböztetni az okot és az okozatot, valamint megérteni a fogalmi kombinációkat megfelelő kontextusban.
    • Érvelés. A 8-lövéses felszólítással a PaLM megoldja a problémák 58%-át a GSM8K-ban, amely több ezer kihívást jelentő általános iskolai szintű matematikai kérdés etalonja, felülmúlva a GPT-55 3B modell finomhangolásával elért 175%-os korábbi csúcspontszámot. A PaLM azt is bemutatja, hogy képes kifejezett magyarázatokat generálni olyan helyzetekben, amelyek a többlépcsős logikai következtetés, a világismeret és a mély nyelvi megértés összetett kombinációját igénylik.
    • Kódgenerálás. A PaLM egyenrangú a finomhangolt Codex 12B-vel, miközben 50-szer kevesebb Python-kódot használ a képzéshez, megerősítve, hogy a nagy nyelvi modellek hatékonyabban továbbítják a tanulást más programozási nyelvekből és természetes nyelvi adatokból is.

Hol lehet többet megtudni erről a kutatásról?

Hol kaphat implementációs kódot?

  • A specifikus Transformer architektúra nem hivatalos PyTorch-megvalósítása a PaLM kutatási cikkéből elérhető a következő címen: GitHub. Nem lesz méretezve, és csak oktatási célokat szolgál. 

4. Flamingo a DeepMindtől

Összegzésként 

A Flamingo a vizuális nyelvi modellek (VLM-ek) élvonalbeli családja, amelyet vegyes szöveget és képeket tartalmazó, nagyméretű multimodális webes korpuszokon képeztek ki. Ezzel a tréninggel a modellek alkalmazkodni tudnak az új feladatokhoz minimális megjegyzésekkel ellátott, promptként megadott példák segítségével. A Flamingo kulcsfontosságú építészeti fejlesztéseket tartalmaz, amelyek célja az előképzett, csak látást és csak nyelvet használó modellek erősségei egyesítése, változóan egymásba ágyazott vizuális és szöveges adatok szekvenciáinak feldolgozása, valamint a képek és videók zökkenőmentes bemeneti befogadása. A modellek lenyűgöző alkalmazkodóképességet mutatnak számos képi és videófeladathoz, mint például a vizuális kérdések megválaszolásához, a feliratozási feladatokhoz és a feleletválasztós vizuális kérdések megválaszolásához, új teljesítménystandardokat állítva fel a feladatspecifikus utasítások segítségével a néhány lépéses tanulás során.

Mi a cél? 

  • Ahhoz, hogy a multimodális modellek gyorsan tanuljanak és rövid utasítások alapján új feladatokat hajthassanak végre:
    • Az a széles körben használt paradigma, hogy egy modellt nagy mennyiségű felügyelt adatra előtanítanak, majd finomhangolják az adott feladathoz, erőforrás-igényes, és több ezer annotált adatpontot igényel, valamint gondos feladatonkénti hiperparaméter-hangolást. 
    • A kontrasztív objektívet használó jelenlegi modellek lehetővé teszik az új feladatokhoz való zéró alkalmazkodást, de elmaradnak a nyitottabb feladatoktól, például a feliratozástól vagy a vizuális kérdésmegválaszolástól, mert hiányoznak a nyelvi generálási képességeik. 
    • A kutatás célja egy olyan új modell bevezetése, amely hatékonyan kezeli ezeket a problémákat, és kiváló teljesítményt mutat az alacsony adatforgalmi rendszerekben.

Hogyan közelítik meg a problémát?

  • A DeepMind bemutatta a Flamingo-t, a VLM-eket, amelyeket a különféle nyílt végű látási és nyelvi feladatok néhány lépésben történő tanulására terveztek, mindössze néhány bemeneti/kimeneti példával.
  • A Flamingo modellek vizuálisan kondicionált, autoregresszív szöveggeneráló modellek, amelyek képesek feldolgozni a képekkel és/vagy videókkal kevert szöveges tokeneket, és szöveget generálni kimenetként.
  • A Flamingo architektúrája két egymást kiegészítő előre betanított és fagyasztott modellt tartalmaz:
    • Vizuális jelenetek „érzékelésére” képes látásmodell.
    • Egy nagy nyelvi modell, amelynek feladata az alapvető érvelés.
  • Az újszerű architektúra komponensek úgy integrálják ezeket a modelleket, hogy megőrizzék a számításigényes előképzésük során megszerzett tudást.
  • Ezenkívül a Flamingo modellek Perceiver-alapú architektúrával rendelkeznek, amely lehetővé teszi nagy felbontású képek vagy videók befogadását. Ez az architektúra képenként/videónként fix számú vizuális tokent képes generálni a vizuális bemeneti szolgáltatások széles és változó skálájából.

Melyek az eredmények?

  • A kutatás azt mutatja, hogy az LLM-ekhez hasonlóan, amelyek jó néhány képen tanuló tanulók, a VLM-ek is tanulhatnak néhány bemeneti/kimeneti példából a kép- és videóértési feladatokhoz, mint például az osztályozás, a feliratozás vagy a kérdések megválaszolása.
  • A Flamingo új mércét állít fel a néhány felvételes tanulásban, kiváló teljesítményt bizonyítva 16 multimodális nyelv- és kép-/videomegértési feladat széles skáláján.
  • Ebből a 6 feladatból 16-nál a Flamingo felülmúlja a legkorszerűbb teljesítményt, annak ellenére, hogy csak 32 feladat-specifikus példát használ – körülbelül 1000-szer kevesebb feladatspecifikus edzésadatot, mint a jelenlegi legjobban teljesítő modellek.
Flamingo látásnyelvi modell

Hol lehet többet megtudni erről a kutatásról?

Hol kaphat implementációs kódot?

  • A DeepMind nem adta ki a Flamingo hivatalos megvalósítását. 
  • A bevezetett megközelítés nyílt forráskódú megvalósítását megtalálhatja a OpenFlamingo Github Repo.
  • Az alternatív PyTorch megvalósítás elérhető itt.

5. BLIP-2 a Salesforce-tól

Összegzésként 

A BLIP-2 egy hatékony és általános előképzési keretrendszer látás- és nyelvi modellekhez, amelyet arra terveztek, hogy megkerülje a nagyméretű modellek előképzésének egyre drasztikusabb költségeit. A BLIP-2 a készen kapható fagyasztott, előre betanított képkódolókat és a lefagyasztott nagy nyelvi modelleket használja fel a látás-nyelv előképzésének elindításához, és egy könnyű lekérdező transzformátort is tartalmaz, amely két fokozatban van előképzett. Az első szakasz a látás-nyelvi reprezentáció tanulását indítja el egy fagyasztott képkódolóból, a második szakasz pedig a látásról nyelvre generatív tanulást indítja el egy fagyasztott nyelvi modellből. Annak ellenére, hogy lényegesen kevesebb betanítható paraméterrel rendelkezik, a BLIP-2 felülmúlja a legmodernebb módszereket, 80%-kal felülmúlva a DeepMind Flamingo8.7B-jét a nullás VQAv2-n 54-szer kevesebb betanítható paraméterrel. A modell ígéretes nulla felvételi kép-szöveg generálási képességekkel is rendelkezik, a természetes nyelvi utasításokat követve.

BLIP-2 keretrendszer
A BLIP-2 keretrendszerének áttekintése

Mi a cél? 

  • A legmodernebb teljesítmény elérése a látásnyelvi feladatokban, miközben csökkenti a számítási költségeket.

Hogyan közelítik meg a problémát?

  • A Salesforce csapata bevezette a BLIP-2 névre keresztelt új látásnyelvű előképzési keretrendszert, Bootstrapping Lnyelv-Imágus Pújraképzés fagyasztott unimodális modellekkel:
    • Az előre betanított unimodális modellek lefagyva maradnak az előképzés során, hogy csökkentsék a számítási költségeket és elkerüljék a katasztrofális felejtést.
    • A többmodális összehangolás megkönnyítése és az előre betanított látásmodellek és az előre betanított nyelvi modellek közötti modalitási szakadék áthidalása érdekében a csapat egy könnyű lekérdező transzformátort (Q-Former) javasol, amely szűk keresztmetszetként működik a fagyasztott képkódoló és a fagyasztott kép között. LLM.
    • A Q-former egy új, kétlépcsős stratégiával előképzett:
      • Az első előképzési szakasz látás-nyelvi reprezentációs tanulást végez. Ez arra kényszeríti a Q-Formert, hogy megtanulja a szöveg szempontjából leginkább releváns vizuális megjelenítést.
      • A második előképzési szakasz a látásról nyelvre generatív tanulást hajt végre a Q-Former kimenetének fagyasztott LLM-hez való csatlakoztatásával. A Q-Former úgy van kiképezve, hogy a kimeneti vizuális reprezentációját az LLM tudja értelmezni.

Melyek az eredmények?

  • A BLIP-2 kivételes, legkorszerűbb eredményeket biztosít a különféle látásnyelvi feladatok során, beleértve a vizuális kérdések megválaszolását, a képaláírásokat és a kép-szöveg visszakeresését.
    • Például a zero-shot VQAv8.7-n 2%-kal felülmúlja a Flamingót.
  • Sőt, ez a kiemelkedő teljesítmény lényegesen nagyobb számítógép-hatékonysággal érhető el:
    • A BLIP-2 felülmúlja a Flamingo-80B-t, miközben 54-szer kevesebb betanítható paramétert használ. 
  • A BLIP-2 képes nulla képből szöveggé generálni a természetes nyelvi utasításokra reagálva, ezáltal megnyitva az utat az olyan készségek fejlesztéséhez, mint például a vizuális tudásalapú érvelés és a vizuális beszélgetés.
  • Végezetül fontos megjegyezni, hogy a BLIP-2 egy sokoldalú megközelítés, amely kifinomultabb unimodális modelleket tud felhasználni a látásnyelvi előképzés teljesítményének további javítása érdekében.
BLIP-2 eredmények
BLIP-2 eredmények

Hol lehet többet megtudni erről a kutatásról?

Hol kaphat implementációs kódot?

A hivatalos BLIP-2 implementáció itt érhető el GitHub.

6. LLAMA a Meta AI-tól

Összegzésként 

A Meta AI csapata azt állítja, hogy a több tokenre kiképzett kisebb modelleket könnyebb áttanítani és finomhangolni bizonyos termékalkalmazásokhoz. Ezért bemutatják Láma (Large Lanyelv Model Meta AI), alapvető nyelvi modellek gyűjteménye 7B-től 65B-ig terjedő paraméterekkel. A LLaMA 33B-t és a 65B-t 1.4 billió tokennel, míg a legkisebb modellt, a LLaMA 7B-t egybillió tokennel képezték ki. Kizárólag nyilvánosan elérhető adatkészleteket használtak, a védett vagy korlátozott adatoktól való függés nélkül. A csapat kulcsfontosságú építészeti fejlesztéseket és képzési sebesség-optimalizálási technikákat is végrehajtott. Következésképpen a LLaMA-13B felülmúlta a GPT-3-at, mivel több mint 10-szer kisebb volt, és a LLaMA-65B versenyképes teljesítményt mutatott a PaLM-540B-vel.

Mi a cél? 

  • Annak bemutatása, hogy megvalósítható-e a legjobban teljesítő modellek kizárólag nyilvánosan hozzáférhető adatkészleteken, védett vagy korlátozott adatforrásokra való támaszkodás nélkül.
  • A kutatói közösség számára kisebb és nagyobb teljesítményű modelleket adni, és ezáltal lehetővé tenni azok számára, akik nem férnek hozzá nagy mennyiségű infrastruktúrához, nagy nyelvi modelleket tanulmányozni.

Hogyan közelítik meg a problémát?

  • A LLaMA modell betanításához a kutatók csak olyan adatokat használtak, amelyek nyilvánosan elérhetőek és kompatibilisek a nyílt forráskóddal.
  • Néhány fejlesztést is bevezettek a szabványos Transformer architektúrán:
    • A GPT-3 módszertant alkalmazva a betanítás stabilitását a kimenet normalizálása helyett az egyes transzformátor-alrétegek bemenetének normalizálásával javították.
    • A PaLM modellek ihlette a kutatók a ReLU nemlinearitást a SwiGLU aktiválási funkcióval helyettesítették a teljesítmény javítása érdekében.
    • Ihlette Su és munkatársai (2021), megszüntették az abszolút pozíciós beágyazásokat, és helyette a hálózat minden rétegébe beépítettek forgó pozicionális beágyazásokat (RoPE).
  • Végül a Meta AI csapata javította modellje edzési sebességét:
    • Hatékony ok-okozati többfejes figyelemmegvalósítás használata figyelmi súlyok tárolása vagy maszkolt kulcs/lekérdezés pontszámok kiszámítása nélkül.
    • Ellenőrzőpont használata a visszafelé haladás során újraszámított aktiválások minimalizálására.
    • Az aktiválások számításának és a GPU-k közötti kommunikáció átfedése a hálózaton keresztül (az all_reduce műveletek miatt).

Melyek az eredmények?

  • A LLaMA-13B felülmúlja a GPT-3-at annak ellenére, hogy több mint 10-szer kisebb, míg a LLaMA-65B tartja magát a PaLM-540B-vel szemben.

Hol lehet többet megtudni erről a kutatásról?

Hol kaphat implementációs kódot?

  • A Meta AI hozzáférést biztosít a LLaMA-hoz akadémiai kutatók, kormányzattal, civil társadalommal, tudományos intézményekkel és globális ipari kutatólaboratóriumokkal kapcsolatban álló személyek számára egyedi esetértékelés alapján. A jelentkezéshez lépjen az alábbiakra GitHub tárház.

7. OpenAI GPT-4

Összegzésként 

GPT-4 egy nagyszabású, multimodális modell, amely képes kép- és szövegbevitelt fogadni és szöveges kimeneteket generálni. Versenyképességi és biztonsági aggályok miatt a modell felépítésével és képzésével kapcsolatos konkrét részleteket elhallgatnak. A teljesítmény tekintetében a GPT-4 felülmúlja a korábbi nyelvi modelleket a hagyományos benchmarkokon, és jelentős javulást mutat a felhasználói szándékok megértésében és a biztonsági tulajdonságokban. A modell emberi szintű teljesítményt is elér a különböző vizsgákon, beleértve a legjobb 10%-os pontszámot a szimulált egységes sávvizsgán.

Mi a cél? 

  • Kidolgozni egy nagyszabású, multimodális modellt, amely képes kép- és szövegbevitelt fogadni és szöveges kimeneteket előállítani. 
  • Olyan infrastruktúra és optimalizálási módszerek kifejlesztése, amelyek kiszámíthatóan viselkednek a skála széles skáláján.

Hogyan közelítik meg a problémát?

  • A versenyképes környezet és a biztonság miatt az OpenAI úgy döntött, hogy elhallgatja az architektúrára, a modell méretére, a hardverre, a képzési számításokra, az adatkészlet-építésre és a képzési módszerekre vonatkozó részleteket.
  • Közölték, hogy:
    • A GPT-4 egy transzformátor alapú modell, amely előre ki van képezve a dokumentum következő tokenjének előrejelzésére.
    • Nyilvánosan elérhető adatokat és harmadik fél által engedélyezett adatokat használ fel.
    • A modellt az RLHF (Reforcement Learning from Human Feedback) segítségével finomították.
  • Meg nem erősített információk azt sugallják, hogy a GPT-4 nem egy egyedülálló sűrű modell, mint elődei, hanem nyolc különálló modellből álló erőmű-koalíció, amelyek mindegyike elképesztően 220 milliárd paramétert tartalmaz.
GPT-4 teljesítmény

Melyek az eredmények?

  • A GPT-4 emberi szintű teljesítményt ér el a legtöbb szakmai és tudományos vizsgán, nevezetesen a szimulált egységes vizsgán a legjobb 10%-ban.
  • Az előre betanított alap GPT-4 modell felülmúlja a meglévő nyelvi modelleket és a korábbi csúcstechnológiás rendszereket a hagyományos NLP benchmarkokon, benchmark-specifikus kialakítás vagy további oktatási protokollok nélkül.
  • A GPT-4 jelentős javulást mutat a felhasználói szándékok követésében, mivel a ChatGPT-től és az OpenAI API-tól érkező 3.5 felszólítás 70.2%-ában előnyben részesítette a válaszait a GPT-5,214 válaszaival szemben.
  • A GPT-4 biztonsági tulajdonságai jelentősen javultak a GPT-3.5-höz képest: 82%-kal csökkent a nem engedélyezett tartalomkérésekre adott válaszok száma, és 29%-kal nőtt a kényes kérésekre (pl. orvosi tanácsadás és önkárosítás) vonatkozó irányelvek betartása.

Hol lehet többet megtudni erről a kutatásról?

Hol kaphat implementációs kódot?

  • A GPT-4 kód implementációja nem érhető el.

Nagy (víziós) nyelvi modellek valós alkalmazásai

Az elmúlt évek legjelentősebb AI-kutatási áttörései a hatalmas adathalmazokra kiképzett nagy AI-modellekből származnak. Ezek a modellek lenyűgöző teljesítményt mutatnak, és lenyűgöző belegondolni, hogy a mesterséges intelligencia hogyan képes forradalmasítani egész iparágakat, például az ügyfélszolgálatot, a marketinget, az e-kereskedelmet, az egészségügyet, a szoftverfejlesztést, az újságírást és még sok mást.

A nagy nyelvi modellek számos valós alkalmazással rendelkeznek. A GPT-4 a következőket sorolja fel:

  • A természetes nyelv megértése és generálása chatbotok és virtuális asszisztensek számára.
  • Gépi fordítás nyelvek között.
  • Cikkek, jelentések vagy egyéb szöveges dokumentumok összefoglalása.
  • Hangulatelemzés piackutatáshoz vagy közösségi média monitorozáshoz.
  • Tartalomgenerálás marketinghez, közösségi médiához vagy kreatív íráshoz.
  • Kérdés-megválaszoló rendszerek ügyfélszolgálathoz vagy tudásbázisokhoz.
  • Szövegbesorolás spamszűréshez, téma kategorizáláshoz vagy dokumentumrendezéshez.
  • Személyre szabott nyelvtanulási és -oktatói eszközök.
  • Kódgenerálás és szoftverfejlesztési segítség.
  • Orvosi, jogi és műszaki dokumentumelemzés és segítségnyújtás.
  • Kisegítő eszközök a fogyatékkal élők számára, mint például a szöveg-beszéd és a beszéd-szöveg átalakítás.
  • Beszédfelismerési és átírási szolgáltatások.

Ha hozzáadunk egy vizuális részt, a lehetséges alkalmazások köre tovább bővül:

Nagyon izgalmas követni a közelmúltbeli AI áttöréseket, és elgondolkodni a lehetséges valós alkalmazásokon. Mielőtt azonban ezeket a modelleket a gyakorlatban alkalmaznánk, foglalkoznunk kell a megfelelő kockázatokkal és korlátokkal, amelyek sajnos meglehetősen jelentősek.

Kockázatok és korlátok

Ha megkérdezi a GPT-4-et a kockázatairól és korlátairól, valószínűleg a vonatkozó aggályok hosszú listáját fogja közölni. Miután átszűrtem ezt a listát, és kiegészítettem néhány további szempontot, a következő kulcsfontosságú kockázatokat és korlátokat kaptam, amelyekkel a modern nagy nyelvi modellek rendelkeznek:

  1. Elfogultság és diszkrimináció: Ezek a modellek hatalmas mennyiségű szöveges adatból tanulnak, amelyek gyakran torzításokat és megkülönböztető tartalmat tartalmaznak. Ennek eredményeként a generált kimenetek akaratlanul is fenntarthatják a sztereotípiákat, a sértő nyelvezetet és az olyan tényezőkön alapuló megkülönböztetést, mint a nem, a faj vagy a vallás.
  2. félrevezető tájékoztatás: A nagy nyelvi modellek tényszerűen helytelen, félrevezető vagy elavult tartalmat generálhatnak. Noha a modelleket sokféle forrás alapján képezték ki, előfordulhat, hogy nem mindig nyújtják a legpontosabb vagy legfrissebb információkat. Ez gyakran azért történik, mert a modell előnyben részesíti a nyelvtanilag helyes vagy koherensnek tűnő kimenetek generálását, még akkor is, ha félrevezetőek.
  3. A megértés hiánya: Bár úgy tűnik, hogy ezek a modellek megértik az emberi nyelvet, elsősorban a minták és statisztikai asszociációk azonosításával működnek a képzési adatokban. Nem ismerik mélyen az általuk generált tartalmat, ami néha értelmetlen vagy irreleváns kimeneteket eredményezhet.
  4. Nem megfelelő tartalom: A nyelvi modellek néha sértő, káros vagy nem megfelelő tartalmat generálhatnak. Bár erőfeszítéseket tesznek az ilyen tartalom minimalizálására, ez még mindig előfordulhat a betanítási adatok természete miatt, és a modellek képtelenek megkülönböztetni a kontextust vagy a felhasználói szándékot.

Következtetés

A nagy nyelvi modellek kétségtelenül forradalmasították a természetes nyelvi feldolgozás területét, és hatalmas potenciált mutattak be a termelékenység növelésében a különböző szerepekben és iparágakban. Képességük emberszerű szöveget generálni, hétköznapi feladatokat automatizálni, valamint segítséget nyújtani a kreatív és elemző folyamatokban, nélkülözhetetlen eszközzé tette őket a mai rohanó, technológiavezérelt világban.

Mindazonáltal alapvető fontosságú, hogy felismerjük és megértsük az ezekkel a hatékony modellekkel kapcsolatos korlátokat és kockázatokat. Nem hagyhatók figyelmen kívül az olyan problémák, mint az elfogultság, a félretájékoztatás és a rosszindulatú felhasználás lehetősége. Miközben továbbra is integráljuk ezeket a mesterséges intelligencia által vezérelt technológiákat mindennapi életünkbe, elengedhetetlen, hogy egyensúlyt találjunk a képességeik kihasználása és az emberi felügyelet biztosítása között, különösen érzékeny és magas kockázatú helyzetekben.

Ha sikerül felelősségteljesen alkalmaznunk a generatív AI-technológiákat, akkor utat nyitunk egy olyan jövő felé, ahol a mesterséges intelligencia és az emberi szakértelem együtt mozdítja elő az innovációt és egy jobb világot teremt mindenki számára.

Tetszett ez a cikk? Iratkozzon fel további AI-kutatási frissítésekért.

Értesíteni fogunk, ha több ehhez hasonló összefoglaló cikket adunk ki.

Időbélyeg:

Még több TOPBOTOK