Obvezno branje: 15 bistvenih dokumentov o AI za razvijalce GenAI

Obvezno branje: 15 bistvenih dokumentov o AI za razvijalce GenAI

Izvorno vozlišče: 3088279

Predstavitev

Ker področje umetne inteligence (AI) še naprej raste in se razvija, postaja za ambiciozne razvijalce AI vedno bolj pomembno, da so na tekočem z najnovejšimi raziskavami in napredkom. Eden najboljših načinov za to je branje dokumentov AI Papers za razvijalce GenAI, ki zagotavljajo dragocene vpoglede v vrhunske tehnike in algoritme. Ta članek bo raziskal 15 bistvenih dokumentov AI za razvijalce GenAI. Ti dokumenti pokrivajo različne teme, od obdelave naravnega jezika do računalniškega vida. Izboljšali bodo vaše razumevanje umetne inteligence in povečali vaše možnosti za prvo zaposlitev na tem razburljivem področju.

Pomen dokumentov AI za razvijalce GenAI

Dokumenti AI Papers za razvijalce GenAI omogočajo raziskovalcem in strokovnjakom, da svoje ugotovitve, metodologije in preboje delijo s širšo skupnostjo. Z branjem teh člankov pridobite dostop do najnovejših dosežkov umetne inteligence, kar vam omogoča, da ostanete pred krivuljo in sprejemate premišljene odločitve pri svojem delu. Poleg tega dokumenti AI Papers za razvijalce GenAI pogosto nudijo podrobne razlage algoritmov in tehnik, ki vam omogočajo globlje razumevanje njihovega delovanja in kako jih je mogoče uporabiti pri težavah v resničnem svetu.

Branje dokumentov o umetni inteligenci za razvijalce GenAI ponuja številne prednosti za ambiciozne razvijalce umetne inteligence. Prvič, pomaga vam ostati na tekočem z najnovejšimi raziskavami in trendi na tem področju. To znanje je ključnega pomena pri prijavi na delovna mesta, povezana z umetno inteligenco, saj delodajalci pogosto iščejo kandidate, ki so seznanjeni z najnovejšimi dosežki. Poleg tega vam branje člankov o AI omogoča, da razširite svoje znanje in pridobite globlje razumevanje konceptov in metodologij AI. To znanje lahko uporabite pri svojih projektih in raziskavah, s čimer postanete kompetentnejši in bolj usposobljeni razvijalec AI.

Dokumenti AI za razvijalce GenAI

Kazalo

Prispevek 1: Transformerji: Pozornost je vse, kar potrebujete

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Članek predstavlja Transformer, novo arhitekturo nevronske mreže za naloge transdukcije zaporedja, kot je strojno prevajanje. Za razliko od tradicionalnih modelov, ki temeljijo na ponavljajočih se ali konvolucijskih nevronskih mrežah, se Transformer opira izključno na mehanizme pozornosti, kar odpravlja potrebo po ponavljanju in konvolucijah. Avtorji trdijo, da ta arhitektura ponuja vrhunsko zmogljivost v smislu kakovosti prevoda, povečane vzporednosti in zmanjšanega časa usposabljanja.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Mehanizem pozornosti

    Transformer je v celoti zgrajen na mehanizmih pozornosti, kar mu omogoča zajemanje globalnih odvisnosti med vhodnimi in izhodnimi sekvencami. Ta pristop omogoča modelu, da upošteva razmerja, ne da bi bil omejen z razdaljo med elementi v zaporedjih.
  1. Vzporeditev

    Ena glavnih prednosti arhitekture Transformer je njena večja vzporednost. Tradicionalni ponavljajoči se modeli trpijo zaradi zaporednega računanja, zaradi česar je paralelizacija zahtevna. Transformerjeva zasnova omogoča učinkovitejšo vzporedno obdelavo med vadbo, kar skrajša čas vadbe.

  1. Vrhunska kakovost in učinkovitost

    Prispevek predstavlja eksperimentalne rezultate nalog strojnega prevajanja, ki dokazujejo, da Transformer dosega vrhunsko kakovost prevoda v primerjavi z obstoječimi modeli. Prekaša predhodne najsodobnejše rezultate, vključno s sestavljenimi modeli, z občutno razliko. Poleg tega Transformer dosega te rezultate s precej krajšim časom vadbe.
  1. Izvedba prevajanja

    Pri nalogi prevajanja iz angleščine v nemščino WMT 2014 predlagani model doseže oceno BLEU 28.4, s čimer preseže obstoječe najboljše rezultate za več kot 2 BLEU. Pri nalogi iz angleščine v francoščino model vzpostavi nov najsodobnejši rezultat BLEU za en sam model 41.8 po samo 3.5-dnevnem usposabljanju na osmih grafičnih procesorjih.
  1. Posploševanje na druge nalogeAvtorji dokazujejo, da se arhitektura Transformer dobro posplošuje na naloge, ki presegajo strojno prevajanje. Model so uspešno uporabili pri razčlenjevanju angleških konstituentov in pokazali njegovo prilagodljivost različnim problemom transdukcije zaporedja.

Prispevek 2: BERT: Predhodno usposabljanje globokih dvosmernih transformatorjev za razumevanje jezika

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Predhodno usposabljanje za jezikovni model se je izkazalo za učinkovito za izboljšanje različnih nalog obdelave naravnega jezika. Prispevek razlikuje med pristopi, ki temeljijo na funkcijah, in pristopi natančnega prilagajanja za uporabo vnaprej usposobljenih jezikovnih predstavitev. BERT je uveden za obravnavanje omejitev v pristopih natančnega prilagajanja, zlasti omejitev enosmernosti standardnih jezikovnih modelov. V prispevku je predlagan cilj pred usposabljanjem »Maskirani jezikovni model« (MLM), ki ga je navdihnila naloga Cloze, da se omogočijo dvosmerne predstavitve. Naloga »predvidevanje naslednjega stavka« se uporablja tudi za skupno predhodno usposabljanje predstavitev besedilnih parov.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Pomen dvosmernega predusposabljanja

    Članek poudarja pomen dvosmernega predusposabljanja za jezikovne reprezentacije. Za razliko od prejšnjih modelov BERT uporablja maskirane jezikovne modele, da omogoči globoke dvosmerne predstavitve, ki presegajo enosmerne jezikovne modele, ki so jih uporabljala prejšnja dela.
  1. Zmanjšanje v arhitekturah, specifičnih za naloge

    BERT dokazuje, da vnaprej usposobljene predstavitve zmanjšujejo potrebo po zahtevno zasnovanih arhitekturah, specifičnih za naloge. Postane prvi predstavitveni model, ki temelji na fini nastavitvi in ​​dosega najsodobnejšo zmogljivost v raznolikem naboru nalog na ravni stavkov in žetonov, pri čemer prekaša arhitekture, specifične za naloge.
  1. Vrhunski napredek

    BERT dosega nove najsodobnejše rezultate pri enajstih nalogah obdelave naravnega jezika, kar dokazuje svojo vsestranskost. Pomembne izboljšave vključujejo občutno povečanje ocene GLUE, natančnost MultiNLI in izboljšave v nalogah odgovarjanja na vprašanja SQuAD v1.1 in v2.0.

Preberete lahko tudi: Natančna nastavitev BERT z modeliranjem maskiranega jezika

Prispevek 3: GPT: Jezikovni modeli se redko naučijo

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Prispevek obravnava izboljšave, dosežene pri nalogah obdelave naravnega jezika (NLP) s povečanjem jezikovnih modelov, s poudarkom na GPT-3 (Generative Pre-trained Transformer 3), avtoregresivni jezikovni model s 175 milijardami parametrov. Avtorji poudarjajo, da je nedavno NLP modeli pokažejo znatne pridobitve s predhodnim usposabljanjem in finim prilagajanjem, pogosto zahtevajo nabore podatkov, specifične za nalogo, s tisočimi primeri za natančno prilagajanje. Nasprotno pa lahko ljudje izvajajo nove jezikovne naloge z nekaj primeri ali preprostimi navodili.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Povečanje velikosti izboljša učinkovitost pri nekaj posnetkih

    Avtorji dokazujejo, da povečevanje jezikovnih modelov znatno izboljša zmogljivost, ki ni odvisna od nalog in je omejena na nekaj posnetkov. GPT-3 s svojo veliko velikostjo parametrov včasih doseže konkurenčnost z najsodobnejšimi pristopi natančnega prilagajanja brez natančnega prilagajanja ali gradientnih posodobitev, specifičnih za nalogo.

  2. Široka uporabnost

    GPT-3 kaže visoko zmogljivost pri različnih nalogah NLP, vključno s prevajanjem, odgovarjanjem na vprašanja, zaključnimi nalogami in nalogami, ki zahtevajo sprotno sklepanje ali prilagajanje domene.
  3. Izzivi in ​​omejitve

    Medtem ko GPT-3 kaže izjemne zmožnosti učenja v nekaj korakih, avtorji identificirajo nabore podatkov, kjer ima težave, in poudarjajo metodološka vprašanja, povezana z usposabljanjem na velikih spletnih korpusih.
  4. Generiranje človeško podobnih člankov

    GPT-3 lahko ustvari novice, ki jih človeški ocenjevalci težko ločijo od člankov, ki so jih napisali ljudje.
  5. Družbeni vplivi in ​​širši premisleki

    Članek obravnava širše družbene vplive zmožnosti GPT-3, zlasti pri ustvarjanju besedila, podobnega človeku. Posledice njegovega delovanja pri različnih nalogah so obravnavane z vidika praktičnih aplikacij in potencialnih izzivov.
  6. Omejitve trenutnih NLP pristopov

    Avtorji poudarjajo omejitve trenutnih pristopov NLP, zlasti njihovo zanašanje na nabore podatkov za natančno uravnavanje nalog, ki predstavljajo izzive, kot je zahteva po velikih označenih naborih podatkov in tveganje prekomernega prilagajanja ozkim porazdelitvam nalog. Poleg tega se pojavljajo pomisleki glede sposobnosti posploševanja teh modelov zunaj meja njihove distribucije usposabljanja.

Prispevek 4: CNN: Klasifikacija ImageNet z globokimi konvolucijskimi nevronskimi mrežami

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Prispevek opisuje razvoj in usposabljanje velike, globoke konvolucijske nevronske mreže (CNN) za klasifikacijo slik na naborih podatkov ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Model dosega pomembne izboljšave v natančnosti klasifikacije v primerjavi s prejšnjimi najsodobnejšimi metodami.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Modelna arhitektura

    Nevronska mreža, uporabljena v študiji, je globoka CNN s 60 milijoni parametrov in 650,000 nevroni. Sestavljen je iz petih konvolucijskih plasti, nekaterim sledijo plasti za maksimalno združevanje, in treh popolnoma povezanih plasti s končnim 1000-smernim mehkim maksimumom za klasifikacijo.

  1. Podatki o usposabljanju

    Model je usposobljen na obsežnem naboru podatkov 1.2 milijona slik visoke ločljivosti s tekmovanja ImageNet ILSVRC-2010. Proces usposabljanja vključuje razvrščanje slik v 1000 različnih razredov.
  1. Uspešnost

    Model dosega 1 % oziroma 5 % stopenj napak med top 37.5 in top 17.0 na testnih podatkih. Te stopnje napak so precej boljše od prejšnjega stanja tehnike, kar kaže na učinkovitost predlaganega pristopa.

  1. Izboljšave pri prekomernem opremljanju

    Prispevek uvaja več tehnik za reševanje težav s prekomernim opremljanjem, vključno z nenasičenimi nevroni, učinkovitim izvajanjem GPU za hitrejše usposabljanje in metodo regulacije, imenovano "osip" v popolnoma povezanih slojih.
  2. Računalniška učinkovitost

    Kljub računalniškim zahtevam usposabljanja velikih CNN-jev članek ugotavlja, da trenutni grafični procesorji in optimizirane izvedbe omogočajo usposabljanje takšnih modelov na slikah visoke ločljivosti.

  1. Prispevki

    Prispevek poudarja prispevke študije, vključno z usposabljanjem ene največjih konvolucijskih nevronskih mrež na podatkovnih nizih ImageNet in doseganjem najsodobnejših rezultatov na tekmovanjih ILSVRC.

Preberete lahko tudi: Obsežna vadnica za učenje konvolucijskih nevronskih mrež

Prispevek 5: GATs: Graf Attention Networks

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Prispevek uvaja arhitekturo, ki temelji na pozornosti, za klasifikacijo vozlišč v grafično strukturiranih podatkih ter prikazuje njeno učinkovitost, vsestranskost in konkurenčno zmogljivost v različnih merilih uspešnosti. Vključitev mehanizmov pozornosti se je izkazala za močno orodje za obdelavo poljubno strukturiranih grafov.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Graf Attention Networks (GAT)GAT-ji izkoriščajo prikrite plasti samopozornosti, da obravnavajo omejitve v prejšnjih metodah, ki temeljijo na konvolucijah grafov. Arhitektura omogoča vozliščem, da spremljajo značilnosti svojih sosesk, pri čemer implicitno določajo različne uteži različnim vozliščem, ne da bi se zanašali na drage matrične operacije ali a priori poznavanje strukture grafa.
  1. Reševanje spektralnih izzivov

    GAT-ji hkrati obravnavajo več izzivov v spektralno temelječih grafičnih nevronskih mrežah. Izzivi Graph Attention Network (GAT) vključujejo prostorsko lokalizirane filtre, intenzivne izračune in neprostorsko lokalizirane filtre. Poleg tega so GAT odvisni od Laplacijeve lastne baze, kar prispeva k njihovi uporabnosti pri induktivnih in transduktivnih problemih.
  1. Učinkovitost med merili uspešnosti

    Modeli GAT dosegajo ali se ujemajo z najsodobnejšimi rezultati v štirih uveljavljenih merilih uspešnosti grafov: naborih podatkov o omrežju citiranja Cora, Citeseer in Pubmed ter naboru podatkov o interakcijah protein-protein. Ta merila uspešnosti pokrivajo scenarije transduktivnega in induktivnega učenja in prikazujejo vsestranskost GAT-jev.
  1. Primerjava s prejšnjimi pristopi

    Prispevek ponuja celovit pregled prejšnjih pristopov, vključno z rekurzivnimi nevronskimi mrežami, Grafično nevronsko omrežje (GNN), spektralne in nespektralne metode ter mehanizmi pozornosti. GAT-ji vključujejo mehanizme pozornosti, kar omogoča učinkovito paralelizacijo med pari vozlišče-sosed in uporabo na vozliščih z različnimi stopnjami.
  1. Učinkovitost in uporabnostGAT ponujajo vzporedno in učinkovito operacijo, ki jo je mogoče uporabiti za vozlišča grafa z različnimi stopnjami, tako da določite poljubne uteži sosedom. Model se neposredno nanaša na induktivne učne probleme, zaradi česar je primeren za naloge, kjer je treba posplošiti na popolnoma nevidne grafe.
  1. Razmerje s prejšnjimi modeli

    Avtorji ugotavljajo, da je GAT mogoče preoblikovati kot poseben primerek MoNeta, si deliti podobnosti z relacijskimi omrežji in se povezati z deli, ki uporabljajo operacije pozornosti soseske. Predlagani model pozornosti se primerja s sorodnimi pristopi, kot sta Duan et al. (2017) in Denil et al. (2017).

Prispevek 6: ViT: Slika je vredna 16×16 Besede: Transformatorji za prepoznavanje slik v velikem obsegu

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Članek priznava prevlado konvolucijskih arhitektur v računalniškem vidu kljub uspehu transformerskih arhitektur pri obdelavi naravnega jezika. Navdahnjeni z učinkovitostjo in razširljivostjo transformatorjev v NLP so avtorji uporabili standardni transformator neposredno na slikah z minimalnimi spremembami.

Predstavljajo Vision Transformer (ViT), kjer so slike razdeljene na zaplate, zaporedje linearnih vdelav teh zaplat pa služi kot vhod v Transformer. Model se usposablja za naloge klasifikacije slik na nadzorovan način. Na začetku, ko se usposablja na srednje velikih naborih podatkov, kot je ImageNet, brez močne regularizacije, ViT dosega natančnosti, ki so nekoliko nižje od primerljivih ResNetov.

Vendar pa avtorji razkrivajo, da je obsežno usposabljanje ključnega pomena za uspeh ViT, ki presega omejitve, ki jih nalaga odsotnost določenih induktivnih pristranskosti. Ko je predhodno usposobljen za obsežne nize podatkov, ViT prekaša najsodobnejša konvolucijska omrežja na več merilih uspešnosti, vključno z ImageNet, CIFAR-100 in VTAB. Članek poudarja vpliv skaliranja pri doseganju izjemnih rezultatov z arhitekturami Transformer v računalniškem vidu.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Transformator v računalniškem vidu

    Prispevek izpodbija prevladujoče zanašanje na konvolucijske nevronske mreže (CNN) za naloge računalniškega vida. Dokazuje, da lahko čisti transformator, ko ga uporabimo neposredno na zaporedjih slikovnih obližev, doseže odlično zmogljivost pri nalogah klasifikacije slik.
  1. Vision Transformer (ViT)

    Avtorji predstavljajo Vision Transformer (ViT), model, ki uporablja mehanizme samopozornosti, podobne Transformerjem v NLP. ViT lahko doseže konkurenčne rezultate na različnih merilih uspešnosti prepoznavanja slik, vključno z ImageNet, CIFAR-100 in VTAB.
  1. Predhodno usposabljanje in prenosno učenje

    Prispevek poudarja pomen predhodnega usposabljanja na velikih količinah podatkov, podobno kot v NLP, in nato prenosa naučenih predstav v specifične naloge prepoznavanja slik. ViT, če je predhodno usposobljen za obsežne nize podatkov, kot sta ImageNet-21k ali JFT-300M, prekaša najsodobnejša konvolucijska omrežja na različnih merilih.
  1. Računalniška učinkovitostViT dosega izjemne rezultate z bistveno manj računalniškimi viri med usposabljanjem kot najsodobnejša konvolucijska omrežja. Ta učinkovitost je še posebej opazna, ko je model vnaprej usposobljen v velikem obsegu.
  1. Učinek skaliranja

    Prispevek poudarja pomen skaliranja pri doseganju vrhunske zmogljivosti z arhitekturami Transformer v računalniškem vidu. Obsežno usposabljanje na naborih podatkov, ki vsebujejo milijone do stotine milijonov slik, pomaga ViT premagati pomanjkanje nekaterih induktivnih pristranskosti, ki so prisotne v CNN.

Paper 7: AlphaFold2: Zelo natančna struktura beljakovin z AlphaFold

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Članek »AlphaFold2: zelo natančna struktura beljakovin z AlphaFold« predstavlja AlphaFold2, model globokega učenja, ki natančno napove strukture beljakovin. AlphaFold2 izkorišča novo arhitekturo, ki temelji na pozornosti, in dosega preboj pri zvijanju beljakovin.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  • AlphaFold2 uporablja globoko nevronsko mrežo z mehanizmi pozornosti za napovedovanje 3D strukture proteinov iz njihovih aminokislinskih zaporedij.
  • Model je bil usposobljen na velikem naboru podatkov o znanih proteinskih strukturah in je dosegel izjemno natančnost na 14. tekmovanju v zvijanju proteinov v okviru 14. kritične ocene napovedi strukture beljakovin (CASPXNUMX).
  • Natančne napovedi AlphaFold2 lahko potencialno spremenijo odkrivanje zdravil, proteinski inženiring in druga področja biokemije.

Paper 8: GANs: Generative Adversarial Nets

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Članek obravnava izzive pri usposabljanju globokih generativnih modelov in uvaja inovativen pristop, imenovan kontradiktorne mreže. V tem okviru se generativni in diskriminativni modeli vključijo v igro, kjer je cilj generativnega modela ustvariti vzorce, ki jih ni mogoče razlikovati od resničnih podatkov. Nasprotno pa diskriminativni model razlikuje med resničnimi in ustvarjenimi vzorci. Adversarni proces usposabljanja vodi do edinstvene rešitve, pri čemer generativni model obnovi distribucijo podatkov.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Kontradiktorni okvir

    Avtorji uvajajo kontradiktorni okvir, kjer se hkrati usposabljata dva modela - generativni model (G), ki zajema distribucijo podatkov, in diskriminativni model (D), ki ocenjuje verjetnost, da je vzorec prišel iz podatkov o usposabljanju in ne iz generativnega modela.
  1. Igra MinimaxPostopek usposabljanja vključuje maksimiranje verjetnosti, da diskriminativni model naredi napako. Ta okvir je oblikovan kot minimax igra za dva igralca, kjer je cilj generativnega modela ustvariti vzorce, ki jih ni mogoče razlikovati od resničnih podatkov, cilj diskriminativnega modela pa je razvrstiti, ali je vzorec resničen ali pravilno ustvarjen.
  1. Edinstvena rešitev

    Edinstvena rešitev obstaja v poljubnih funkcijah za G in D, pri čemer G obnovi porazdelitev podatkov o usposabljanju, D pa je povsod enak 1/2. To ravnovesje se doseže s procesom kontradiktornega treninga.
  1. Večplastni perceptroni (MLP)Avtorji dokazujejo, da je celoten sistem mogoče trenirati z uporabo povratnega širjenja, ko večplastni perceptroni predstavljajo G in D. To odpravlja potrebo po Markovljevih verigah ali razvitih približnih sklepnih mrežah med usposabljanjem in generiranjem vzorcev.
  1. Brez približnega sklepanja

    Predlagani okvir se izogne ​​težavam pri približevanju težko obvladljivih verjetnostnih izračunov pri oceni največje verjetnosti. Prav tako premaguje izzive pri izkoriščanju prednosti delno linearnih enot v generativnem kontekstu.

Dokument 9: RoBERTa: robustno optimiziran pristop pred usposabljanjem BERT

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Prispevek obravnava vprašanje premajhne usposobljenosti BERT in uvaja RoBERTa, optimizirano različico, ki presega zmogljivost BERT. Spremembe v postopku usposabljanja RoBERTa in uporaba novega nabora podatkov (CC-NEWS) prispevajo k najsodobnejšim rezultatom pri več nalogah obdelave naravnega jezika. Ugotovitve poudarjajo pomen izbir oblikovanja in strategij usposabljanja za učinkovitost predusposabljanja jezikovnega modela. Izdani viri, vključno z modelom in kodo RoBERTa, prispevajo k raziskovalni skupnosti.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. BERT Podtrening

    Avtorji to ugotavljajo BERTI, široko uporabljan jezikovni model, je bil znatno premalo usposobljen. S skrbnim ocenjevanjem vpliva nastavitve hiperparametrov in velikosti nabora za usposabljanje so pokazali, da je mogoče BERT izboljšati, da bo ustrezal ali presegel zmogljivost vseh modelov, objavljenih za njim.
  1. Izboljšan recept za vadbo (RoBERTa)

    Avtorji uvajajo modifikacije postopka usposabljanja BERT, ki dajejo RoBERTa. Te spremembe vključujejo podaljšana obdobja usposabljanja z večjimi serijami, odpravo cilja predvidevanja naslednjega stavka, usposabljanje na daljših zaporedjih in dinamične prilagoditve vzorcev maskiranja za podatke o usposabljanju.
  1. Prispevek nabora podatkovČlanek predstavlja nov nabor podatkov, imenovan CC-NEWS, ki je po velikosti primerljiv z drugimi nabori podatkov v zasebni uporabi. Vključitev tega nabora podatkov pomaga pri boljšem nadzoru učinkov velikosti nabora za usposabljanje in prispeva k izboljšani zmogljivosti pri nadaljnjih nalogah.
  1. Dosežki uspešnosti

    RoBERTa s predlaganimi modifikacijami dosega najsodobnejše rezultate pri različnih primerjalnih nalogah, vključno z GLUE, RACE in SQuAD. Ujema se ali presega zmogljivost vseh metod po BERT pri nalogah, kot so MNLI, QNLI, RTE, STS-B, SQuAD in RACE.
  1. Konkurenčnost predusposabljanja modela maskiranega jezika

    Prispevek ponovno potrjuje, da je cilj predusposabljanja modela maskiranega jezika, s pravimi oblikovalskimi odločitvami, konkurenčen drugim nedavno predlaganim ciljem usposabljanja.
  1. Izdani viri

    Avtorji izdajo svoj model RoBERTa, skupaj s kodo za predusposabljanje in fino nastavitev, implementirano v PyTorch, kar prispeva k ponovljivosti in nadaljnjemu raziskovanju njihovih ugotovitev.

Preberite tudi: Nežen uvod v RoBERTa

Prispevek 10: NeRF: Predstavitev prizorov kot polj nevronskega sevanja za sintezo pogleda

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Optimizacija vključuje zmanjšanje napake med opazovanimi slikami z znanimi položaji kamere in pogledi, upodobljenimi iz neprekinjenega prikaza scene. Prispevek obravnava izzive, povezane s konvergenco in učinkovitostjo, z uvedbo pozicijskega kodiranja za obdelavo funkcij višje frekvence in predlaganjem hierarhičnega postopka vzorčenja za zmanjšanje števila poizvedb, potrebnih za ustrezno vzorčenje.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Neprekinjena predstavitev scene

    V prispevku je predstavljena metoda za predstavitev kompleksnih prizorov kot 5D nevronskih sevalnih polj z uporabo osnovnih mrež večplastnih perceptronov (MLP).
  1. Diferencialno upodabljanje

    Predlagani postopek upodabljanja temelji na klasičnih tehnikah volumskega upodabljanja, kar omogoča optimizacijo na osnovi preliva z uporabo standardnih slik RGB.
  1. Hierarhična strategija vzorčenja

    Uvedena je hierarhična strategija vzorčenja za optimizacijo zmogljivosti MLP v smeri območij z vidno vsebino prizora, pri čemer se obravnavajo vprašanja konvergence.
  1. Pozicijsko kodiranjeUporaba pozicijskega kodiranja za preslikavo vhodnih 5D koordinat v prostor višjih dimenzij omogoča uspešno optimizacijo polj nevralnega sevanja za visokofrekvenčno vsebino scene.

Predlagana metoda presega najsodobnejše pristope sinteze pogleda, vključno s prilagajanjem nevronskih 3D predstavitev in usposabljanjem globokih konvolucijskih mrež. Ta članek uvaja neprekinjeno nevronsko predstavitev scene za upodabljanje fotorealističnih novih pogledov visoke ločljivosti iz slik RGB v naravnih okoljih, z dodatnimi primerjavami, prikazanimi v dodatnem videoposnetku, ki poudarjajo njeno učinkovitost pri obravnavanju kompleksne geometrije in videza scene.

Prispevek 11: FunSearch: Matematična odkritja programskega iskanja z velikimi jezikovnimi modeli

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Prispevek predstavlja FunSearch, nov pristop za uporabo velikih jezikovnih modelov (LLM) za reševanje kompleksnih problemov, zlasti pri znanstvenih odkritjih. Primarni obravnavani izziv je pojav konfabulacij (halucinacij) pri LLM, kar vodi do verjetnih, a nepravilnih izjav. FunSearch združuje predhodno usposobljenega LLM s sistematičnim ocenjevalcem v evolucijskem postopku za premagovanje te omejitve.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Reševanje problemov z LLM

    Prispevek obravnava vprašanje LLM-jev, ki razmišljajo ali jim ne uspe ustvariti novih zamisli in pravilnih rešitev za kompleksne probleme. Poudarja pomen iskanja novih, preverljivo pravilnih idej, zlasti za matematične in znanstvene izzive.

  1. Evolucijski postopek – FunSearch

    FunSearch združuje predhodno usposobljenega LLM z ocenjevalcem v evolucijskem procesu. Programe z nizkimi točkami iterativno razvija v tiste z visokimi točkami, kar zagotavlja odkrivanje novega znanja. Postopek vključuje prikazovanje najboljšega posnetka, razvijanje programskih okostij, ohranjanje raznolikosti programov in asinhrono spreminjanje velikosti.
  1. Uporaba v ekstremni kombinatoriki

    Članek prikazuje učinkovitost funkcije FunSearch pri problemu zgornja meja v ekstremni kombinatoriki. FunSearch odkriva nove konstrukcije nizov z velikimi kapicami, ki presegajo najbolj znane rezultate in zagotavljajo največjo izboljšavo asimptotične spodnje meje v 20 letih.
  1. Algoritemski problem – spletno pakiranje v koš

    FunSearch se uporablja za problem spletnega pakiranja zabojnikov, kar vodi do odkritja novih algoritmov, ki prekašajo tradicionalne na dobro raziskanih distribucijah zanimanja. Potencialne aplikacije vključujejo izboljšanje algoritmov za razporejanje opravil.
  1. Programi proti rešitvamFunSearch se osredotoča na ustvarjanje programov, ki opisujejo, kako rešiti težavo, namesto da neposredno izpiše rešitve. Ti programi so ponavadi bolj razumljivi, olajšajo interakcijo s strokovnjaki za področje in jih je lažje uvesti kot druge vrste opisov, kot so nevronske mreže.
  1. Interdisciplinarni vpliv

    Metodologija FunSearch omogoča raziskovanje širokega spektra problemov, zaradi česar je vsestranski pristop z interdisciplinarnimi aplikacijami. Prispevek poudarja njegov potencial za izdelavo preverljivih znanstvenih odkritij z uporabo LLM.

Prispevek 12: VAE: Variacijski Bayes s samodejnim kodiranjem

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Članek »Auto-Encoding Variational Bayes« obravnava izziv učinkovitega sklepanja in učenja v usmerjenih verjetnostnih modelih z zveznimi latentnimi spremenljivkami, zlasti kadar so posteriorne porazdelitve nerešljive in se ukvarjajo z velikimi nabori podatkov. Avtorji predlagajo stohastično variacijsko sklepanje in učni algoritem, ki se dobro prilagaja velikim podatkovnim nizom in ostaja uporaben tudi v nerešljivih posteriornih distribucijah.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Reparametrizacija variacijske spodnje meje

    Prispevek prikazuje reparametrizacijo variacijske spodnje meje, kar ima za posledico ocenjevalec spodnje meje. Ta ocenjevalec je primeren za optimizacijo z uporabo standardnih stohastičnih gradientnih metod, zaradi česar je računsko učinkovit.
  1. Učinkovito posteriorno sklepanje za zvezne latentne spremenljivkeAvtorji predlagajo algoritem Auto-Encoding VB (AEVB) za nabore podatkov z zveznimi latentnimi spremenljivkami na podatkovno točko. Ta algoritem uporablja variacijski Bayesov ocenjevalec stohastičnega gradienta (SGVB) za optimizacijo modela prepoznavanja, kar omogoča učinkovito približno posteriorno sklepanje z vzorčenjem prednikov. Ta pristop se izogiba dragim iterativnim shemam sklepanja, kot je Markov Chain Monte Carlo (MCMC) za vsako podatkovno točko.
  1. Teoretične prednosti in eksperimentalni rezultati

    Teoretične prednosti predlagane metode se odražajo v eksperimentalnih rezultatih. Prispevek nakazuje, da model reparametrizacije in prepoznavanja vodita k računalniški učinkovitosti in razširljivosti, zaradi česar je pristop uporaben za velike nabore podatkov in v situacijah, kjer je posterior nerešljiv.

Preberite tudi: Razkrivamo bistvo stohastike v strojnem učenju

Prispevek 13: DOLGOTRAJNI SPOMIN

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Prispevek obravnava izziv učenja shranjevanja informacij v daljših časovnih intervalih v ponavljajočih se nevronskih mrežah. Predstavlja novo, učinkovito na gradientu temelječo metodo, imenovano »dolgotrajni pomnilnik« (LSTM), ki odpravlja težave z nezadostnim in propadajočim povratnim tokom napak. LSTM uveljavlja stalen pretok napak skozi "vrtiljake stalnih napak" in uporablja multiplikativne enote vrat za nadzor dostopa. Z lokalno prostorsko-časovno kompleksnostjo (O(1) na časovni korak in težo) eksperimentalni rezultati kažejo, da LSTM prekaša obstoječe algoritme glede hitrosti učenja in stopnje uspešnosti, zlasti za naloge s podaljšanimi časovnimi zamiki.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Analiza problemov

    Prispevek ponuja podrobno analizo izzivov, povezanih s povratnim tokom napak v ponavljajočih se nevronskih mrežah, pri čemer poudarja vprašanja signalov napak, ki sčasoma eksplodirajo ali izginejo.
  1. Uvedba LSTM

    Avtorji predstavljajo LSTM kot novo arhitekturo, zasnovano za reševanje problemov izginjanja in eksplozije signalov napak. LSTM vključuje stalen tok napak skozi specializirane enote in uporablja multiplikativne enote vrat za uravnavanje dostopa do tega toka napak.
  1. Eksperimentalni rezultati

    S poskusi z umetnimi podatki članek dokazuje, da LSTM prekaša druge algoritme ponavljajočih se omrežij, vključno z BPTT, RTRL, ponavljajočo se kaskadno korelacijo, Elmanovimi mrežami in drobljenjem nevronskih zaporedij. LSTM kaže hitrejše učenje in višje stopnje uspešnosti, zlasti pri reševanju kompleksnih nalog z dolgimi časovnimi zamiki.
  1. Lokalno v prostoru in času

    LSTM je opisan kot lokalna arhitektura v prostoru in času, pri čemer je računska kompleksnost na časovni korak in utež O(1).
  1. Uporabnost

    Predlagana arhitektura LSTM učinkovito rešuje zapletene, umetne naloge dolgotrajnega zamika, ki jih prejšnji ponavljajoči se omrežni algoritmi niso uspešno rešili.

  1. Omejitve in prednosti

    Prispevek obravnava omejitve in prednosti LSTM ter ponuja vpogled v praktično uporabnost predlagane arhitekture.

Preberite tudi: Kaj je LSTM? Uvod v dolgoročni kratkoročni spomin

Prispevek 14: Učenje prenosljivih vizualnih modelov iz nadzora naravnega jezika

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Prispevek raziskuje usposabljanje najsodobnejših sistemov računalniškega vida z neposrednim učenjem iz surovega besedila o slikah, namesto da bi se zanašal na fiksne nize vnaprej določenih kategorij predmetov. Avtorji predlagajo nalogo pred usposabljanjem napovedovanja, kateri napis ustreza dani sliki, z uporabo nabora podatkov 400 milijonov parov (slika, besedilo), zbranih iz interneta. Nastali model, CLIP (kontrastivno jezikovno-slikovno predhodno usposabljanje), prikazuje učinkovito in razširljivo učenje slikovnih predstavitev. Po predhodnem usposabljanju se naravni jezik sklicuje na vizualne koncepte, kar omogoča brezhibni prenos na različne naloge na nižji stopnji. CLIP se primerja z več kot 30 nabori podatkov računalniškega vida, ki prikazujejo konkurenčno zmogljivost brez usposabljanja, specifičnega za nalogo.

Ključni vpogledi v dokumente AI za razvijalce GenAI

  1. Usposabljanje o naravnem jeziku za računalniški vid

    Prispevek raziskuje uporabo nadzora naravnega jezika za usposabljanje modelov računalniškega vida namesto tradicionalnega pristopa k usposabljanju na nizih podatkov, označenih z množico, kot je ImageNet.
  1. Naloga pred usposabljanjemAvtorji predlagajo preprosto nalogo pred usposabljanjem: napovedovanje, kateri napis ustreza dani sliki. Ta naloga se uporablja za učenje najsodobnejših slikovnih predstavitev iz nič na ogromnem naboru podatkov 400 milijonov parov (slika, besedilo), zbranih na spletu.
  1. Zero-Shot prenos

    Po predhodnem usposabljanju model uporablja naravni jezik za sklicevanje na naučene vizualne koncepte ali opisovanje novih. To omogoča takojšen prenos modela na nadaljnje naloge brez potrebe po posebnem usposabljanju nabora podatkov.
  1. Primerjalna analiza različnih nalog

    Prispevek ocenjuje učinkovitost predlaganega pristopa na več kot 30 različnih zbirkah podatkov računalniškega vida, ki zajemajo naloge, kot so OCR, prepoznavanje dejanj v videoposnetkih, geolokalizacija in natančno razvrščanje predmetov.
  1. Konkurenčna uspešnost

    Model prikazuje konkurenčno zmogljivost s popolnoma nadzorovanimi izhodišči za različne naloge, ki se pogosto ujemajo ali presegajo natančnost modelov, usposobljenih za nabore podatkov, specifične za nalogo, brez dodatnega usposabljanja, specifičnega za nabor podatkov.
  1. Študija razširljivosti

    Avtorji preučujejo razširljivost svojega pristopa z usposabljanjem serije osmih modelov z različnimi ravnmi računalniških virov. Ugotovljeno je, da je zmogljivost prenosa gladko predvidljiva funkcija računalništva.
  1. Robustnost modela

    Prispevek poudarja, da so modeli CLIP z ničelnim strelom robustnejši od enakovrednih natančnih nadzorovanih modelov ImageNet, kar nakazuje, da vrednotenje zero-shot modelov, neodvisnih od nalog, zagotavlja bolj reprezentativno merilo zmogljivosti modela.

Prispevek 15: LORA: PRILAGODITEV VELIKIH JEZIKOVNIH MODELOV NIZKEGA RANGA

Link: Preberite tukaj

Dokumenti AI za razvijalce GenAI

Povzetek prispevka

Članek predlaga LoRA kot učinkovito metodo za prilagajanje velikih vnaprej usposobljenih jezikovnih modelov specifičnim nalogam, pri čemer obravnava izzive uvajanja, povezane z njihovo naraščajočo velikostjo. Metoda bistveno zmanjša parametre, ki jih je mogoče učiti, in zahteve po pomnilniku GPE, hkrati pa ohranja ali izboljšuje kakovost modela v različnih merilih uspešnosti. Odprtokodna izvedba dodatno olajša sprejetje LoRA v praktičnih aplikacijah.

Ključni vpogledi v dokumente AI za razvijalce GenAI

1. Izjava o težavi

  • Obsežno predhodno usposabljanje, ki mu sledi natančno prilagajanje, je pogost pristop pri obdelavi naravnega jezika.
  • Natančno prilagajanje postane manj izvedljivo, ko modeli rastejo, zlasti pri uvajanju modelov z ogromnimi parametri, kot je GPT-3 (175 milijard parametrov).

2. Predlagana rešitev: prilagoditev nizke stopnje (LoRA)

  • Članek predstavlja LoRA, metodo, ki zamrzne vnaprej pripravljene uteži modela in uvede matrike dekompozicije ranga, ki jih je mogoče učiti, v vsako plast arhitekture Transformer.
  • LoRA znatno zmanjša število parametrov, ki jih je mogoče učiti za naloge na nižji stopnji, v primerjavi s popolno natančno nastavitvijo.

3. Prednosti LoRA

  • Zmanjšanje parametrov: V primerjavi s finim nastavljanjem lahko LoRA zmanjša število parametrov, ki jih je mogoče učiti, do 10,000-krat, zaradi česar je računsko učinkovitejši.
  • Učinkovitost pomnilnika: LoRA zmanjša zahteve po pomnilniku GPU do 3-krat v primerjavi s fino nastavitvijo.
  • Kakovost modela: Kljub manjšemu številu parametrov, ki jih je mogoče učiti, LoRA deluje enako ali bolje kot fina nastavitev v smislu kakovosti modela na različnih modelih, vključno z RoBERTa, DeBERTa, GPT-2 in GPT-3.

4. Premagovanje izzivov uvajanja

  • Članek obravnava izziv uvajanja modelov s številnimi parametri z uvedbo LoRA, ki omogoča učinkovito preklapljanje nalog brez ponovnega usposabljanja celotnega modela.

5. Učinkovitost in nizka zakasnitev sklepanja

  • LoRA olajša skupno rabo vnaprej usposobljenega modela za gradnjo več modulov LoRA za različne naloge, kar zmanjša zahteve za shranjevanje in stroške preklapljanja nalog.
  • Usposabljanje je učinkovitejše, z znižanjem strojne ovire za vstop do 3-krat pri uporabi prilagodljivih optimizatorjev.

6. Združljivost in integracija

  • LoRA je združljiva z različnimi predhodnimi metodami in se lahko kombinira z njimi, kot je nastavitev predpone.
  • Predlagana linearna zasnova omogoča združevanje matrik, ki jih je mogoče učiti, z zamrznjenimi utežmi med uvajanjem, pri čemer ne uvaja dodatne zakasnitve sklepanja v primerjavi s popolnoma natančno nastavljenimi modeli.

7. Empirična preiskava

  • Prispevek vključuje empirično preiskavo pomanjkljivosti ranga pri prilagajanju jezikovnega modela, ki zagotavlja vpogled v učinkovitost pristopa LoRA.

8. Odprtokodna izvedba

  • Avtorji zagotavljajo paket, ki olajša integracijo LoRA z modeli PyTorch ter izvedbe izdaje in kontrolne točke modelov za RoBERTa, DeBERTa in GPT-2.

Preberete lahko tudi: Parametrsko učinkovito fino uravnavanje velikih jezikovnih modelov z LoRA in QLoRA

zaključek

Skratka, poglabljanje v 15 bistvenih dokumentov o umetni inteligenci za razvijalce GenAI, poudarjenih v tem članku, ni le priporočilo, ampak strateški imperativ za vsakega ambicioznega razvijalca. Ti članki o umetni inteligenci ponujajo obsežno potovanje skozi raznoliko pokrajino umetne inteligence, ki zajema kritična področja, kot je obdelava naravnega jezika, računalniški vid in več. S poglobitvijo v spoznanja in inovacije, predstavljene v teh dokumentih, razvijalci pridobijo poglobljeno razumevanje najsodobnejših tehnik in algoritmov na tem področju.

Časovni žig:

Več od Analitika Vidhya