Kötelező elolvasni: 15 alapvető AI dokumentum a GenAI fejlesztők számára

Kötelező elolvasni: 15 alapvető AI dokumentum a GenAI fejlesztők számára

Forrás csomópont: 3088279

Bevezetés

Ahogy a mesterséges intelligencia (AI) területe folyamatosan növekszik és fejlődik, egyre fontosabbá válik a feltörekvő AI-fejlesztők számára, hogy naprakészek legyenek a legújabb kutatásokkal és fejlesztésekkel. Ennek egyik legjobb módja a GenAI fejlesztőknek szóló AI Papers elolvasása, amely értékes betekintést nyújt a legmodernebb technikákba és algoritmusokba. Ez a cikk a GenAI fejlesztői számára készült 15 alapvető AI-dokumentumot vizsgálja meg. Ezek a dolgozatok különböző témákat fednek le, a természetes nyelvi feldolgozástól a számítógépes látásig. Bővítik a mesterséges intelligencia megértését, és növelik az esélyeit arra, hogy megszerezze első állását ezen az izgalmas területen.

Az AI-papírok jelentősége a GenAI fejlesztők számára

Az AI Papers for GenAI fejlesztők számára lehetővé teszi a kutatók és szakértők számára, hogy megosszák eredményeiket, módszereiket és áttöréseiket a szélesebb közösséggel. Ha elolvassa ezeket a dokumentumokat, hozzáférhet a mesterséges intelligencia legújabb fejlesztéseihez, lehetővé téve, hogy a görbe előtt maradjon, és megalapozott döntéseket hozzon munkája során. Ezenkívül az AI Papers for GenAI fejlesztők gyakran részletes magyarázatot adnak az algoritmusokról és technikákról, így mélyebb megértést adnak azok működéséről és a valós problémákra való alkalmazásáról.

A GenAI-fejlesztők számára készült AI-dokumentumok olvasása számos előnnyel jár a feltörekvő AI-fejlesztők számára. Először is, segít naprakészen maradni a terület legújabb kutatásaival és trendjeivel. Ez a tudás kulcsfontosságú az MI-vel kapcsolatos állások megpályázásakor, mivel a munkaadók gyakran keresnek olyan jelölteket, akik ismerik a legújabb fejlesztéseket. Ezenkívül az AI-dokumentumok olvasása lehetővé teszi ismeretei bővítését, valamint az AI-koncepciók és -módszerek mélyebb megértését. Ezt a tudást alkalmazni lehet projektjei és kutatásai során, így Ön kompetensebb és képzettebb AI-fejlesztővé válik.

AI papírok GenAI fejlesztőknek

Tartalomjegyzék

1. papír: Transzformátorok: Csak a figyelem kell

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A cikk bemutatja a Transformert, egy új neurális hálózati architektúrát szekvencia átviteli feladatokhoz, például gépi fordításhoz. Az ismétlődő vagy konvolúciós neurális hálózatokon alapuló hagyományos modellekkel ellentétben a Transformer kizárólag a figyelemmechanizmusokra támaszkodik, így nincs szükség ismétlődésre és konvolúciókra. A szerzők azzal érvelnek, hogy ez az architektúra kiváló teljesítményt nyújt a fordítási minőség, a megnövelt párhuzamosíthatóság és a csökkentett képzési idő tekintetében.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. Figyelem Mechanizmus

    A Transformer teljes mértékben figyelemfelkeltő mechanizmusokra épül, lehetővé téve a bemeneti és kimeneti szekvenciák közötti globális függőségek rögzítését. Ez a megközelítés lehetővé teszi a modell számára, hogy kapcsolatokat vegyen figyelembe anélkül, hogy korlátozná a sorozatok elemei közötti távolság.
  1. Párhuzamosság

    A Transformer architektúra egyik fő előnye a megnövelt párhuzamosíthatósága. A hagyományos, ismétlődő modellek a szekvenciális számításoktól szenvednek, ami kihívást jelent a párhuzamosításhoz. A Transformer kialakítása hatékonyabb párhuzamos feldolgozást tesz lehetővé edzés közben, csökkentve az edzési időt.

  1. Kiváló minőség és hatékonyság

    A cikk kísérleti eredményeket mutat be gépi fordítási feladatokról, bemutatva, hogy a Transformer jobb fordítási minőséget ér el a meglévő modellekhez képest. Jelentős különbséggel felülmúlja a korábbi csúcstechnológiás eredményeket, beleértve az együttes modelleket is. Ezenkívül a Transformer ezeket az eredményeket lényegesen rövidebb edzési idővel éri el.
  1. Fordítási teljesítmény

    A WMT 2014 angol-német fordítási feladatban a javasolt modell 28.4-es BLEU-pontszámot ér el, több mint 2 BLEU-val felülmúlva a jelenlegi legjobb eredményeket. Az angol-francia feladatnál a modell 41.8-as új, egymodell csúcstechnológiás BLEU-pontszámot ad, miután nyolc GPU-n mindössze 3.5 napig edzett.
  1. Általánosítás más feladatokraA szerzők bemutatják, hogy a Transformer architektúra jól általánosítható a gépi fordításon túli feladatokra is. Sikeresen alkalmazzák a modellt az angol választókerületi elemzésre, megmutatva annak alkalmazkodóképességét a különböző szekvenciatranszdukciós problémákhoz.

2. dolgozat: BERT: Mély kétirányú transzformátorok előképzése a nyelv megértéséhez

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A nyelvi modell előképzése hatékonynak bizonyult a különböző természetes nyelvi feldolgozási feladatok javításában. A dolgozat különbséget tesz a jellemző alapú és a finomhangoló megközelítések között az előre betanított nyelvi reprezentációk alkalmazására. A BERT azért került bevezetésre, hogy kezelje a finomhangolási megközelítések korlátait, különösen a szabványos nyelvi modellek egyirányúságára vonatkozó korlátait. A tanulmány egy „Maszked Nyelvi Modell” (MLM) előképzési célkitűzést javasol, amelyet a Cloze feladat ihletett, hogy lehetővé tegye a kétirányú megjelenítést. A „következő mondat előrejelzése” feladat is használható a szövegpáros reprezentációk közös előképzésére.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. Kétirányú előképzés fontossága

    A tanulmány hangsúlyozza a kétirányú előképzés jelentőségét a nyelvi reprezentációkban. A korábbi modellekkel ellentétben a BERT maszkolt nyelvi modelleket használ a mély, kétirányú megjelenítések lehetővé tételére, felülmúlva a korábbi munkák által használt egyirányú nyelvi modelleket.
  1. A feladatspecifikus architektúrák csökkentése

    A BERT bemutatja, hogy az előre kiképzett reprezentációk csökkentik az alaposan megtervezett feladat-specifikus architektúrák iránti igényt. Ez az első olyan finomhangoláson alapuló reprezentációs modell, amely a legmodernebb teljesítményt éri el a mondatszintű és token szintű feladatok sokféle skáláján, felülmúlva a feladatspecifikus architektúrákat.
  1. A legmodernebb fejlesztések

    A BERT új, legkorszerűbb eredményeket ér el tizenegy természetes nyelvi feldolgozási feladatban, bemutatva sokoldalúságát. A figyelemre méltó fejlesztések közé tartozik a GLUE pontszám jelentős növekedése, a MultiNLI pontosság, valamint a SQuAD v1.1 és v2.0 kérdésmegválaszolási feladatok továbbfejlesztése.

A következőket is olvashatja: A BERT finomhangolása maszkolt nyelvi modellezéssel

3. dolgozat: GPT: A nyelvi modellek kevéssé tanulhatóak

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A cikk a természetes nyelvi feldolgozási (NLP) feladatokban a nyelvi modellek felnagyításával elért fejlesztéseket tárgyalja, különös tekintettel a GPT-3 (Generative Pre-train Transformer 3), egy autoregresszív nyelvi modell 175 milliárd paraméterrel. A szerzők kiemelik, hogy míg a közelmúltban NLP modellek jelentős előnyöket mutatnak az előképzés és a finomhangolás révén, gyakran feladatspecifikus adatkészleteket igényelnek több ezer példával a finomhangoláshoz. Ezzel szemben az emberek néhány példával vagy egyszerű utasításokkal új nyelvi feladatokat hajthatnak végre.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. A felnagyítás javítja a néhány lövés teljesítményét

    A szerzők bizonyítják, hogy a nyelvi modellek felnagyítása jelentősen javítja a feladat-agnosztikus, néhány lépéses teljesítményt. A nagy paramétermérettel rendelkező GPT-3 időnként a legmodernebb finomhangolási megközelítésekkel versenyképességet ér el, feladatspecifikus finomhangolás vagy gradiens frissítés nélkül.

  2. Széles körű alkalmazhatóság

    A GPT-3 kiváló teljesítményt mutat különféle NLP-feladatokban, beleértve a fordítást, a kérdés-válaszolást, a zárási feladatokat, valamint a menet közbeni érvelést vagy tartományi adaptációt igénylő feladatokat.
  3. Kihívások és korlátok

    Míg a GPT-3 figyelemreméltó néhány pillanatnyi tanulási képességet mutat, a szerzők azonosítják azokat az adatkészleteket, ahol nehézségekbe ütközik, és kiemelik a nagy webes korpuszokon végzett képzéssel kapcsolatos módszertani problémákat.
  4. Emberszerű cikkgeneráció

    A GPT-3 olyan hírcikkeket generálhat, amelyeket az értékelők nehezen tudnak megkülönböztetni az emberek által írt cikkektől.
  5. Társadalmi hatások és tágabb szempontok

    A cikk a GPT-3 képességeinek tágabb társadalmi hatásait tárgyalja, különösen az emberhez hasonló szövegek létrehozásában. A különféle feladatokban nyújtott teljesítményének hatásait a gyakorlati alkalmazások és a potenciális kihívások szempontjából veszik figyelembe.
  6. A jelenlegi NLP-megközelítések korlátai

    A szerzők kiemelik a jelenlegi NLP-megközelítések korlátait, különösen a feladatspecifikus finomhangoló adatkészletekre való támaszkodásukat, amelyek olyan kihívásokat jelentenek, mint a nagy címkézett adatkészletek követelménye, és a szűk feladatelosztásokhoz való túlillesztés kockázata. Ezen túlmenően aggályok merülnek fel e modellek általánosító képességét illetően a képzési eloszlásuk határain kívül.

4. cikk: CNN-ek: ImageNet osztályozás mély konvolúciós neurális hálózatokkal

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A cikk egy nagy, mély konvolúciós neurális hálózat (CNN) fejlesztését és betanítását írja le képosztályozáshoz az ImageNet Large Scale Visual Recognition Challenge (ILSVRC) adatkészletein. A modell jelentős javulást ér el az osztályozási pontosság terén a korábbi korszerű módszerekhez képest.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. Modellarchitektúra

    A tanulmányban használt neurális hálózat egy mély CNN, 60 millió paraméterrel és 650,000 1000 neuronnal. Öt konvolúciós rétegből áll, amelyek közül néhányat max-pooling réteg követ, és három teljesen összekapcsolt réteget, egy végső XNUMX utas softmax-szal az osztályozáshoz.

  1. Képzési adatok

    A modellt az ImageNet ILSVRC-1.2 verseny 2010 millió nagy felbontású képéből álló jelentős adathalmazra képezték ki. A képzési folyamat során a képeket 1000 különböző osztályba sorolják.
  1. teljesítmény

    A modell 1%-os és 5%-os top-37.5, illetve 17.0%-os hibaarányt ér el. Ezek a hibaarányok lényegesen jobbak, mint az előző legkorszerűbbek, jelezve a javasolt megközelítés hatékonyságát.

  1. Fejlesztések a túlillesztésben

    A cikk számos technikát mutat be a túlillesztési problémák megoldására, ideértve a nem telítő neuronokat, a hatékony GPU-megvalósítást a gyorsabb edzés érdekében, valamint a „lemorzsolódásnak” nevezett szabályosítási módszert a teljesen összekapcsolt rétegekben.
  2. Számítási hatékonyság

    A nagy CNN-ek betanításával kapcsolatos számítási igények ellenére a cikk megjegyzi, hogy a jelenlegi GPU-k és az optimalizált megvalósítások lehetővé teszik az ilyen modellek nagy felbontású képeken való betanítását.

  1. Hozzájárulások

    A tanulmány kiemeli a tanulmány hozzájárulását, beleértve az egyik legnagyobb konvolúciós neurális hálózat ImageNet adatkészleteken való képzését és a legkorszerűbb eredmények elérését az ILSVRC versenyeken.

A következőket is olvashatja: Átfogó oktatóanyag a konvolúciós neurális hálózatok megismeréséhez

5. dolgozat: GAT: Graph Attention Networks

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A cikk egy figyelem alapú architektúrát mutat be a csomópontok osztályozására a gráf-strukturált adatokban, bemutatva annak hatékonyságát, sokoldalúságát és versenyképes teljesítményét a különböző benchmarkok között. A figyelemmechanizmusok beépítése hatékony eszköznek bizonyul az önkényesen strukturált gráfok kezelésére.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. Graph Attention Networks (GAT)A GAT-ok maszkolt önfigyelő rétegeket használnak fel, hogy a gráfkonvolúciókon alapuló korábbi módszerek korlátait kezeljék. Az architektúra lehetővé teszi a csomópontok számára, hogy megfigyeljék a szomszédságuk jellemzőit, implicit módon különböző súlyokat adva meg a különböző csomópontoknak anélkül, hogy költséges mátrixműveletekre vagy a gráfszerkezet előzetes ismeretére támaszkodnának.
  1. Spektrális alapú kihívások kezelése

    A GAT-ok egyidejűleg számos kihívást kezelnek a spektrális alapú gráf neurális hálózatokban. A Graph Attention Network (GAT) kihívásai közé tartoznak a térben lokalizált szűrők, az intenzív számítások és a nem térben lokalizált szűrők. Ezenkívül a GAT-ok a laplaci sajátbázistól függenek, hozzájárulva az induktív és transzduktív problémákra való alkalmazhatóságukhoz.
  1. Teljesítmény a viszonyítási alapokon keresztül

    A GAT-modellek a legkorszerűbb eredményeket érik el vagy egyezik meg a négy megállapított grafikon-benchmarkon keresztül: Cora, Citeseer és Pubmed hivatkozási hálózat adatkészletei, valamint egy fehérje-fehérje interakciós adatkészlet. Ezek a referenciaértékek mind a transzduktív, mind az induktív tanulási forgatókönyveket lefedik, bemutatva a GAT-ok sokoldalúságát.
  1. Összehasonlítás a korábbi megközelítésekkel

    A cikk átfogó áttekintést nyújt a korábbi megközelítésekről, beleértve a rekurzív neurális hálózatokat, Neurális hálózatok gráfja (GNN-ek), spektrális és nem spektrális módszerek, valamint figyelemmechanizmusok. A GAT-ok figyelmi mechanizmusokat tartalmaznak, amelyek lehetővé teszik a csomópont-szomszéd párok közötti hatékony párhuzamosítást és a különböző fokú csomópontokra történő alkalmazást.
  1. Hatékonyság és alkalmazhatóságA GAT-ok párhuzamosítható, hatékony műveletet kínálnak, amely a szomszédok tetszőleges súlyozásával különböző fokú gráfcsomópontokra alkalmazható. A modell közvetlenül vonatkozik az induktív tanulási problémákra, így alkalmas olyan feladatokra, ahol teljesen láthatatlan grafikonokra kell általánosítani.
  1. A korábbi modellekhez való viszony

    A szerzők megjegyzik, hogy a GAT-ok újrafogalmazhatók a MoNet sajátos példányaként, hasonlóságokat mutatnak a relációs hálózatokkal, és kapcsolódhatnak olyan művekhez, amelyek szomszédsági figyelési műveleteket használnak. A javasolt figyelemmodellt összehasonlítják a kapcsolódó megközelítésekkel, mint például Duan et al. (2017) és Denil et al. (2017).

6. dolgozat: ViT: Egy kép 16 × 16-ot ér. Szavak: Transzformátorok a méretarányos képfelismeréshez

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A tanulmány elismeri a konvolúciós architektúrák dominanciáját a számítógépes látásban annak ellenére, hogy a Transformer architektúrák sikeresek a természetes nyelvi feldolgozásban. A transzformátorok hatékonysága és az NLP skálázhatósága ihlette a szerzőket, minimális módosítással közvetlenül a szabványos transzformátort alkalmazták a képekre.

Bemutatják a Vision Transformer (ViT), ahol a képek foltokra vannak felosztva, és ezeknek a foltoknak a lineáris beágyazásának sorrendje bemenetként szolgál a Transformer számára. A modellt felügyelt módon képezik képosztályozási feladatokra. Kezdetben, amikor közepes méretű adatkészletekre, például az ImageNetre tanítják, erős regularizáció nélkül, a ViT a hasonló ResNetnél valamivel alacsonyabb pontosságot ér el.

A szerzők azonban felfedik, hogy a nagyszabású képzés kulcsfontosságú a ViT sikeréhez, túlszárnyalva azokat a korlátokat, amelyeket bizonyos induktív torzítások hiánya támaszt. Ha előképzett hatalmas adatkészletekre, a ViT felülmúlja a legmodernebb konvolúciós hálózatokat több benchmarkon, beleértve az ImageNet-et, a CIFAR-100-at és a VTAB-t. A cikk kiemeli a méretezés hatását a Transformer architektúrákkal a számítógépes látás terén elért figyelemre méltó eredmények elérésére.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. Transzformátor a Computer Visionban

    A cikk megkérdőjelezi a konvolúciós neurális hálózatokra (CNN-ekre) való támaszkodást a számítógépes látási feladatokban. Bemutatja, hogy a tiszta Transformer, ha közvetlenül a képfoltok sorozataira alkalmazza, kiváló teljesítményt érhet el a képosztályozási feladatokban.
  1. Vision Transformer (ViT)

    A szerzők bemutatják a Vision Transformer (ViT) modellt, amely az NLP Transformerséhez hasonló önfigyelési mechanizmusokat használ. A ViT versenyképes eredményeket érhet el különböző képfelismerő benchmarkokon, beleértve az ImageNet, a CIFAR-100 és a VTAB-t.
  1. Előképzés és transzfertanulás

    A cikk hangsúlyozza a nagy adatmennyiségre vonatkozó előképzés fontosságát, hasonlóan az NLP-ben alkalmazott megközelítéshez, majd a tanult reprezentációkat konkrét képfelismerési feladatokra kell átvinni. A hatalmas adatkészletekre, például az ImageNet-21k-re vagy a JFT-300M-re előképzett ViT különféle benchmarkokon felülmúlja a legmodernebb konvolúciós hálózatokat.
  1. Számítási hatékonyságA ViT a képzés során lényegesen kevesebb számítási erőforrással ér el figyelemre méltó eredményeket, mint a legmodernebb konvolúciós hálózatok. Ez a hatékonyság különösen figyelemre méltó, ha a modellt nagy léptékben előképzik.
  1. Méretezési hatás

    A cikk kiemeli a méretezés jelentőségét a kiváló teljesítmény elérésében a Transformer architektúrákkal a számítógépes látásban. A milliótól százmillióig terjedő képet tartalmazó adatkészleteken végzett nagyszabású képzés segít a ViT-nek leküzdeni a CNN-ekben előforduló induktív torzítások hiányát.

7. papír: AlphaFold2: Nagyon pontos fehérjeszerkezet az AlphaFold segítségével

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

Az „AlphaFold2: Nagyon pontos fehérjeszerkezet AlphaFolddal” című tanulmány bemutatja az AlphaFold2-t, egy mély tanulási modellt, amely pontosan előrejelzi a fehérjeszerkezeteket. Az AlphaFold2 új, figyelem alapú architektúrát használ, és áttörést ér el a fehérjehajtogatás terén.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  • AlphaFold2 figyelmi mechanizmusokkal rendelkező mély neurális hálózatot használ, hogy megjósolja a fehérjék 3D szerkezetét aminosavszekvenciáik alapján.
  • A modellt ismert fehérjeszerkezetek nagy adathalmazára képezték ki, és példátlan pontosságot ért el a 14. fehérjeszerkezet-előrejelzés (CASP14) fehérjehajtogatási versenyben.
  • Az AlphaFold2 pontos előrejelzései potenciálisan forradalmasíthatják a gyógyszerkutatást, a fehérjefejlesztést és a biokémia más területeit.

8. dolgozat: GAN-ok: Generatív ellenséges hálók

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A tanulmány foglalkozik a mélygeneratív modellek képzésének kihívásaival, és bemutat egy innovatív megközelítést, az úgynevezett ellenséges hálókat. Ebben a keretben a generatív és diszkriminatív modellek olyan játékban vesznek részt, ahol a generatív modell célja a valós adatoktól megkülönböztethetetlen minták előállítása. Ezzel szemben a diszkriminatív modell különbséget tesz a valós és a generált minták között. Az ellenséges képzési folyamat egyedülálló megoldáshoz vezet, a generatív modell visszaállítja az adateloszlást.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. Averziós keretrendszer

    A szerzők egy kontradiktórius keretrendszert vezetnek be, amelyben két modellt egyidejűleg tanítanak – egy generatív modellt (G), amely rögzíti az adatok eloszlását, és egy diszkriminatív modellt (D), amely megbecsüli annak valószínűségét, hogy a minta a betanítási adatokból származott, nem pedig a generatív modellből.
  1. Minimax játékA képzési eljárás magában foglalja a diszkriminatív modell hibájának maximalizálását. Ezt a keretrendszert egy minimax kétjátékos játékként fogalmazták meg, ahol a generatív modell célja a valós adatoktól megkülönböztethetetlen minták generálása, a diszkriminatív modell pedig annak osztályozása, hogy egy minta valódi vagy helyesen generált-e.
  1. Egyedi megoldás

    Egyedülálló megoldás létezik G és D tetszőleges függvényeiben, ahol G helyreállítja a betanítási adatok eloszlását, és D mindenhol egyenlő 1/2-tel. Ezt az egyensúlyt a kontradiktórius képzési folyamattal érik el.
  1. Többrétegű perceptronok (MLP-k)A szerzők bemutatják, hogy a teljes rendszer betanítható visszaszaporítással, amikor a többrétegű perceptronok G-t és D-t képviselnek. Ezáltal nincs szükség Markov-láncokra vagy kigöngyölített közelítő következtetési hálózatokra a betanítás és a minták generálása során.
  1. Nincs hozzávetőleges következtetés

    A javasolt keretrendszer elkerüli a megoldhatatlan valószínűségi számítások közelítésének nehézségeit a maximális valószínűség becslésében. Leküzdi azokat a kihívásokat is, amelyek a darabonkénti lineáris egységek előnyeinek kiaknázását jelentik a generatív kontextusban.

9. dolgozat: RoBERTa: Robusztusan optimalizált BERT előképzési megközelítés

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A cikk foglalkozik a BERT alulképzési problémájával, és bemutatja a RoBERTa-t, egy optimalizált változatot, amely felülmúlja a BERT teljesítményét. A RoBERTa képzési eljárásának módosításai és egy újszerű adatkészlet (CC-NEWS) használata hozzájárul a legkorszerűbb eredményekhez több természetes nyelvi feldolgozási feladatban. Az eredmények hangsúlyozzák a tervezési döntések és a képzési stratégiák fontosságát a nyelvi modell előképzésének hatékonyságában. A felszabadított források, beleértve a RoBERTa modellt és kódot, hozzájárulnak a kutatói közösséghez.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. BERT képzés

    A szerzők úgy találják BERTI, egy széles körben használt nyelvi modell, jelentősen alulképzett volt. A hiperparaméterek hangolásának és a betanítási készlet méretének gondos értékelésével azt mutatják, hogy a BERT javítható, hogy megfeleljen vagy meghaladja az utána közzétett összes modell teljesítményét.
  1. Továbbfejlesztett edzésrecept (RoBERTa)

    A szerzők módosításokat vezetnek be a BERT képzési eljárásába, ami RoBERTa-t eredményez. Ezek a változtatások magukban foglalják a meghosszabbított betanítási periódusokat nagyobb kötegekkel, a következő mondat előrejelzési céljának kiiktatását, a hosszabb sorozatokra vonatkozó betanítást és a betanítási adatok dinamikus maszkolási mintázatának módosítását.
  1. Adatkészlet hozzájárulásA cikk bemutatja a CC-NEWS nevű új adatkészletet, amely méretében összehasonlítható más magánhasználatú adatkészletekkel. Ennek az adatkészletnek a felvétele segít jobban szabályozni a képzési készlet méretének hatásait, és hozzájárul a jobb teljesítményhez a későbbi feladatok során.
  1. Teljesítményben elért eredmények

    A RoBERTa a javasolt módosításokkal a legkorszerűbb eredményeket éri el a különböző benchmark feladatokban, beleértve a GLUE, RACE és SQuAD feladatokat. Megfelel vagy meghaladja az összes BERT utáni módszer teljesítményét olyan feladatoknál, mint az MNLI, QNLI, RTE, STS-B, SQuAD és RACE.
  1. Az álarcos nyelvmodell-előképzés versenyképessége

    A tanulmány megerősíti, hogy a maszkolt nyelvi modell előképzési célkitűzése a megfelelő tervezési döntésekkel versenyképes más, nemrégiben javasolt képzési célokkal.
  1. Megjelent források

    A szerzők kiadják RoBERTa-modelljüket, valamint a PyTorch-ban implementált előképzési és finomhangoló kódot, hozzájárulva az eredmények reprodukálhatóságához és további feltárásához.

Is Read: Gyengéd bevezetés a RoBERTa-hoz

10. cikk: NeRF: Jelenetek ábrázolása neurális sugárzási mezőként a nézetszintézishez

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

Az optimalizálás magában foglalja az ismert kamerapózokkal megfigyelt képek és a folyamatos jelenetábrázolásból előállított nézetek közötti hiba minimalizálását. A cikk a konvergenciával és a hatékonysággal kapcsolatos kihívásokat a magasabb frekvenciájú függvények kezelésére pozicionált kódolás bevezetésével, valamint egy hierarchikus mintavételi eljárást javasol a megfelelő mintavételhez szükséges lekérdezések számának csökkentésével.

Kulcsfontosságú betekintés az AI-dokumentumokból GenAI fejlesztők számára

  1. Folyamatos jelenetábrázolás

    A cikk bemutat egy módszert összetett jelenetek 5D-s neurális sugárzási mezőként történő megjelenítésére alapvető többrétegű perceptron (MLP) hálózatok segítségével.
  1. Differenciálható renderelés

    A javasolt renderelési eljárás a klasszikus volumen-renderelési technikákon alapul, lehetővé téve a gradiens alapú optimalizálást szabványos RGB-képek használatával.
  1. Hierarchikus mintavételi stratégia

    Hierarchikus mintavételi stratégiát vezetnek be az MLP kapacitásának optimalizálására a látható jelenettartalommal rendelkező területek felé, és ezzel a konvergencia problémákat kezelik.
  1. Pozíciós kódolásA pozíciókódolás használata a bemeneti 5D koordináták magasabb dimenziós térbe való leképezésére lehetővé teszi a neurális sugárzási mezők sikeres optimalizálását a nagyfrekvenciás jelenettartalomhoz.

A javasolt módszer felülmúlja a legmodernebb nézetszintézis megközelítéseket, beleértve a neurális 3D reprezentációk illesztését és a mély konvolúciós hálózatok betanítását. Ez a cikk egy folyamatos neurális jelenetábrázolást mutat be, amellyel nagy felbontású fotorealisztikus újszerű nézeteket lehet renderelni RGB-képekből természetes körülmények között, a kiegészítő videóban pedig további összehasonlításokat mutatunk be, amelyek kiemelik annak hatékonyságát az összetett jelenetek geometriájának és megjelenésének kezelésében.

11. dolgozat: FunSearch: Matematikai felfedezések a programkeresésből nagy nyelvi modellekkel

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A cikk bemutatja a FunSearch-t, egy új megközelítést a Large Language Models (LLM-ek) komplex problémák megoldására, különösen a tudományos felfedezésben. Az elsődleges kihívás a konfabulációk (hallucinációk) előfordulása az LLM-ekben, amelyek elfogadható, de helytelen állításokhoz vezetnek. A FunSearch egy előre képzett LLM-t szisztematikus értékelővel kombinál egy evolúciós eljárásban, hogy leküzdje ezt a korlátot.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. Problémamegoldás LLM-ekkel

    A cikk foglalkozik azzal a problémával, hogy az LLM-ek összekeverednek, vagy nem tudnak új ötleteket és helyes megoldásokat generálni összetett problémákra. Hangsúlyozza az új, igazolhatóan helyes ötletek megtalálásának fontosságát, különösen a matematikai és tudományos kihívásokhoz.

  1. Evolúciós eljárás – FunSearch

    A FunSearch egy evolúciós folyamatban egyesíti az előképzett LLM-t egy értékelővel. Az alacsony pontszámú programokat iteratívan magas pontszámú programokká fejleszti, biztosítva az új ismeretek felfedezését. A folyamat magában foglalja a legjobb kérést, a programvázak fejlesztését, a programok sokféleségének fenntartását és az aszinkron méretezést.
  1. Alkalmazás Extremal Combinatorics

    A cikk bemutatja a FunSearch hatékonyságát az extremális kombinatorika sapkahalmaz problémájában. A FunSearch a nagyméretű készletek új konstrukcióit fedezi fel, felülmúlva a legismertebb eredményeket, és az elmúlt 20 év legnagyobb javulását az aszimptotikus alsó korláthoz képest.
  1. Algoritmikus probléma – Online szemetescsomagolás

    A FunSearch alkalmazást az online szemetes-csomagolási problémára alkalmazzák, ami olyan új algoritmusok felfedezéséhez vezet, amelyek felülmúlják a hagyományosokat a jól tanulmányozott érdeklődési körökben. A lehetséges alkalmazások közé tartozik a munkaütemezési algoritmusok javítása.
  1. Programok kontra megoldásokA FunSearch olyan programok generálására összpontosít, amelyek leírják, hogyan kell megoldani egy problémát, nem pedig a megoldásokat közvetlenül kiadni. Ezek a programok általában jobban értelmezhetőek, megkönnyítik a tartományi szakértőkkel való interakciót, és könnyebben telepíthetők, mint más típusú leírások, például a neurális hálózatok.
  1. Interdiszciplináris hatás

    A FunSearch módszertana lehetővé teszi a problémák széles körének feltárását, így sokoldalú megközelítést biztosít az interdiszciplináris alkalmazásokhoz. A cikk kiemeli a benne rejlő lehetőségeket az LLM-ek segítségével ellenőrizhető tudományos felfedezések megtételére.

12. papír: VAE: Auto-Encoding Variational Bayes

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

Az „Auto-Encoding Variational Bayes” című cikk a hatékony következtetés és tanulás kihívásával foglalkozik a folytonos látens változókat tartalmazó irányított valószínűségi modellekben, különösen akkor, ha a hátsó eloszlások kezelhetetlenek és nagy adatkészletekkel foglalkoznak. A szerzők egy sztochasztikus variációs következtetést és tanulási algoritmust javasolnak, amely jól skálázható nagy adathalmazokhoz, és még a kezelhetetlen utólagos eloszlásokban is alkalmazható.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. Variációs alsó határ újraparaméterezése

    A cikk bemutatja a variációs alsó korlát újraparaméterezését, ami egy alsó korlát becslést eredményez. Ez a becslő szabványos sztochasztikus gradiens módszerekkel optimalizálható, így számításilag hatékony.
  1. Hatékony utólagos következtetés folyamatos látens változókraA szerzők az Auto-Encoding VB (AEVB) algoritmust javasolják adatpontonként folytonos látens változókat tartalmazó adatkészletekhez. Ez az algoritmus a Sztochasztikus Gradiens Variációs Bayes (SGVB) becslést használja a felismerési modell optimalizálására, ami hatékony közelítő utólagos következtetést tesz lehetővé az ősi mintavételen keresztül. Ez a megközelítés elkerüli a költséges iteratív következtetési sémákat, mint például a Markov Chain Monte Carlo (MCMC) minden adatpont esetében.
  1. Elméleti előnyök és kísérleti eredmények

    A javasolt módszer elméleti előnyei a kísérleti eredményekben is megmutatkoznak. A cikk azt sugallja, hogy az újraparaméterezési és felismerési modell a számítási hatékonysághoz és skálázhatósághoz vezet, így a megközelítés alkalmazható nagy adathalmazokra és olyan helyzetekre, ahol a posterior kezelhetetlen.

Lásd még: A sztochasztika lényegének leleplezése a gépi tanulásban

13. dolgozat: HOSSZÚ RÖVID TÁVÚ MEMÓRIA

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A tanulmány azzal a kihívással foglalkozik, hogy megtanuljunk hosszabb időintervallumon át tárolni az információkat ismétlődő neurális hálózatokban. Bevezeti a „Long Short-Term Memory” (LSTM) nevű újszerű, hatékony gradiens-alapú módszert, amely kiküszöböli az elégtelen és csökkenő hiba-visszaáramlási problémákat. Az LSTM állandó hibaáramlást kényszerít ki „állandó hibakörhintán” keresztül, és multiplikatív kapuegységeket használ a hozzáférés szabályozására. A lokális tér-idő összetettséggel (O(1) időlépésenként és súlyonként) a kísérleti eredmények azt mutatják, hogy az LSTM felülmúlja a meglévő algoritmusokat a tanulási sebesség és a sikerességi arány tekintetében, különösen a hosszan tartó időeltolódású feladatoknál.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. Problémaelemzés

    A cikk részletes elemzést ad a visszatérő neurális hálózatok hiba-visszaáramlásával kapcsolatos kihívásokról, kiemelve a hibajelek idővel felrobbanó vagy eltűnő problémáit.
  1. Az LSTM bemutatása

    A szerzők az LSTM-et egy újszerű architektúraként mutatják be, amelyet az eltűnő és felrobbanó hibajelek problémáinak kezelésére terveztek. Az LSTM állandó hibaáramlást tartalmaz speciális egységeken keresztül, és multiplikatív kapuegységeket alkalmaz a hibafolyamhoz való hozzáférés szabályozására.
  1. Kísérleti eredmények

    Mesterséges adatokkal végzett kísérleteken keresztül a cikk bemutatja, hogy az LSTM felülmúlja a többi ismétlődő hálózati algoritmust, beleértve a BPTT-t, az RTRL-t, az ismétlődő kaszkádkorrelációt, az Elman-hálókat és a neurális szekvencia darabolást. Az LSTM gyorsabb tanulást és magasabb sikerarányt mutat, különösen az összetett feladatok hosszú késleltetésű megoldása során.
  1. Helyi térben és időben

    Az LSTM-et úgy írják le, mint egy helyi architektúrát térben és időben, és az időlépésenkénti számítási bonyolultság és a súly O(1).
  1. Alkalmazhatóság

    A javasolt LSTM architektúra hatékonyan oldja meg az összetett, mesterséges, hosszú idejű késleltetésű feladatokat, amelyeket a korábbi visszatérő hálózati algoritmusok nem kezeltek sikeresen.

  1. Korlátozások és előnyök

    A cikk az LSTM korlátait és előnyeit tárgyalja, betekintést nyújtva a javasolt architektúra gyakorlati alkalmazhatóságába.

Lásd még: Mi az LSTM? Bevezetés a hosszú távú rövid távú memóriába

14. dolgozat: Átvihető vizuális modellek tanulása természetes nyelvi felügyeletből

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A tanulmány a legmodernebb számítógépes látásrendszerek képzését vizsgálja úgy, hogy közvetlenül tanul a képekről szóló nyers szövegből, ahelyett, hogy előre meghatározott tárgykategóriákra hagyatkozna. A szerzők egy edzés előtti feladatot javasolnak, hogy az internetről gyűjtött 400 millió (kép, szöveg) párból álló adathalmaz segítségével megjósolják, melyik felirat felel meg egy adott képnek. Az eredményül kapott modell, a CLIP (Contrastive Language-Image Pre-training) a képreprezentációk hatékony és méretezhető tanulását mutatja be. Az előképzést követően a természetes nyelv vizuális fogalmakra hivatkozik, lehetővé téve a nullapontos átvitelt a különféle downstream feladatokhoz. A CLIP-et több mint 30 számítógépes látási adatkészleten mérik össze, amelyek versenyképes teljesítményt mutatnak be feladatspecifikus képzés nélkül.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

  1. Képzés a számítógépes látás természetes nyelvéről

    A tanulmány a természetes nyelvi felügyelet használatát vizsgálja a számítógépes látásmodellek betanításához a hagyományos képzési megközelítés helyett a tömegcímkézett adatkészleteken, mint például az ImageNet.
  1. Előképzési feladatA szerzők egy egyszerű előképzési feladatot javasolnak: megjósolni, hogy egy adott képhez melyik felirat felel meg. Ezzel a feladattal a legkorszerűbb képábrázolásokat tanulják meg a semmiből egy 400 millió (kép, szöveg) párból álló, online gyűjtött hatalmas adathalmazon.
  1. Zero-Shot Transfer

    Az előképzés után a modell természetes nyelvet használ a tanult vizuális fogalmakra való hivatkozásra vagy újak leírására. Ez lehetővé teszi a modell nullapontos átvitelét a későbbi feladatokhoz anélkül, hogy speciális adatkészlet betanításra lenne szükség.
  1. Benchmarking különböző feladatokhoz

    A tanulmány több mint 30 különböző számítógépes látási adatkészleten értékeli a javasolt megközelítés teljesítményét, olyan feladatokat lefedve, mint az OCR, a műveletek felismerése a videókban, a földrajzi lokalizáció és a finomszemcsés objektumok osztályozása.
  1. Versenyképes teljesítmény

    A modell versenyképes teljesítményt mutat teljesen felügyelt alapállapotokkal a különböző feladatok során, gyakran megfelelve vagy felülmúlva a feladatspecifikus adatkészleteken betanított modellek pontosságát további adatkészlet-specifikus képzés nélkül.
  1. Skálázhatósági tanulmány

    A szerzők nyolc modellből álló sorozat képzésével tanulmányozzák megközelítésük skálázhatóságát különböző szintű számítási erőforrásokkal. Az átviteli teljesítményről úgy találtuk, hogy a számítástechnika simán megjósolható függvénye.
  1. A modell robusztussága

    A cikk kiemeli, hogy a zero-shot CLIP modellek robusztusabbak, mint az ekvivalens pontosságú, felügyelt ImageNet modellek, ami arra utal, hogy a feladat-agnosztikus modellek nullapontos kiértékelése reprezentatívabb mérést ad a modell képességeiről.

15. dolgozat: LORA: A NAGY NYELVI MODELLEK ALACSONY SZINTŰ ALKALMAZÁSA

Link: Olvassa el itt

AI papírok GenAI fejlesztőknek

Papír összefoglaló

A cikk a LoRA-t javasolja, mint hatékony módszert a nagy, előre betanított nyelvi modellek konkrét feladatokhoz való adaptálására, a növekvő méretükből adódó telepítési kihívások kezelésére. A módszer jelentősen csökkenti a betanítható paramétereket és a GPU memóriaigényét, miközben fenntartja vagy javítja a modell minőségét a különböző benchmarkok között. A nyílt forráskódú megvalósítás tovább könnyíti a LoRA gyakorlati alkalmazásokban való alkalmazását.

Az AI-dokumentumok kulcsfontosságú ismeretei a GenAI fejlesztői számára

1. Problémanyilatkozat

  • A természetes nyelvi feldolgozásban elterjedt megközelítés a nagy léptékű előképzés, majd a finomhangolás.
  • A finomhangolás egyre kevésbé kivitelezhető a modellek növekedésével, különösen akkor, ha nagy paraméterekkel rendelkező modelleket telepítenek, mint például a GPT-3 (175 milliárd paraméter).

2. Javasolt megoldás: alacsony szintű adaptáció (LoRA)

  • A cikk bemutatja a LoRA-t, egy olyan módszert, amely lefagyasztja az előre betanított modellsúlyokat, és betanítható rangfelbontási mátrixokat vezet be a Transformer architektúra minden rétegébe.
  • A LoRA jelentősen csökkenti a betanítható paraméterek számát a downstream feladatokhoz a teljes finomhangoláshoz képest.

3. A LoRA előnyei

  • Paramétercsökkentés: A finomhangoláshoz képest a LoRA akár 10,000 XNUMX-szeresére is csökkentheti a betanítható paraméterek számát, így számítási szempontból hatékonyabbá válik.
  • Memóriahatékonyság: A LoRA a finomhangoláshoz képest akár háromszorosára csökkenti a GPU memóriaigényét.
  • Modellminőség: Annak ellenére, hogy kevesebb betanítható paraméterrel rendelkezik, a LoRA a finomhangolásnál egyenértékű vagy jobb teljesítményt nyújt a modellminőség tekintetében a különböző modelleken, beleértve a RoBERTa-t, a DeBERTa-t, a GPT-2-t és a GPT-3-at.

4. A telepítési kihívások leküzdése

  • A cikk a LoRA bevezetésével foglalkozik a sok paraméterrel rendelkező modellek bevezetésének kihívásával, amely lehetővé teszi a hatékony feladatváltást a teljes modell átképzése nélkül.

5. Hatékonyság és alacsony következtetési késleltetés

  • A LoRA megkönnyíti az előre betanított modell megosztását több LoRA-modul felépítéséhez különböző feladatokhoz, csökkentve a tárolási követelményeket és a feladatváltási többletköltségeket.
  • A képzés hatékonyabbá válik, adaptív optimalizálók használata esetén akár háromszorosára csökkenti a hardveres belépési akadályt.

6. Kompatibilitás és integráció

  • A LoRA kompatibilis számos korábbi módszerrel, és kombinálható velük, például az előtag-hangolással.
  • A javasolt lineáris kialakítás lehetővé teszi a betanítható mátrixok és a befagyasztott súlyok összevonását a telepítés során, és nem vezet be további következtetési késleltetést a teljesen finomhangolt modellekhez képest.

7. Empirikus vizsgálat

  • A cikk empirikus vizsgálatot tartalmaz a nyelvi modell-adaptáció rangbeli hiányosságairól, betekintést nyújtva a LoRA megközelítés hatékonyságába.

8. Nyílt forráskódú megvalósítás

  • A szerzők olyan csomagot kínálnak, amely megkönnyíti a LoRA és a PyTorch modellek integrálását, valamint a RoBERTa, DeBERTa és GPT-2 kiadási implementációit és modellellenőrző pontjait.

Olvashatod még: Nagy nyelvi modellek paraméterhatékony finomhangolása LoRA és QLoRA segítségével

Következtetés

Összefoglalva, az ebben a cikkben kiemelt, a GenAI-fejlesztők számára készült 15 alapvető mesterségesintelligencia-dokumentumban való elmélyülés nem pusztán ajánlás, hanem stratégiai kényszer minden törekvő fejlesztő számára. Ezek az AI-dokumentumok átfogó utazást kínálnak a mesterséges intelligencia változatos tájain, olyan kritikus területeken, mint a természetes nyelvi feldolgozás, a számítógépes látás és azon túl. Azáltal, hogy elmerülnek az ezekben a dokumentumokban bemutatott meglátásokban és innovációkban, a fejlesztők mélyreható ismereteket szereznek a terület legmodernebb technikáiról és algoritmusairól.

Időbélyeg:

Még több Analytics Vidhya