Peab lugema: 15 olulist tehisintellekti dokumenti GenAI arendajatele

Peab lugema: 15 olulist tehisintellekti dokumenti GenAI arendajatele

Allikasõlm: 3088279

Sissejuhatus

Kuna tehisintellekti (AI) valdkond kasvab ja areneb, muutub ambitsioonikate tehisintellekti arendajate jaoks üha olulisemaks olla kursis viimaste uuringute ja edusammudega. Üks parimaid viise selleks on GenAI arendajatele mõeldud tehisintellekti paberite lugemine, mis annavad väärtuslikku teavet tipptasemel tehnikate ja algoritmide kohta. See artikkel uurib 15 olulist tehisintellekti dokumenti GenAI arendajatele. Need paberid hõlmavad erinevaid teemasid loomuliku keele töötlemisest arvutinägemiseni. Need parandavad teie arusaamist tehisintellektist ja suurendavad teie võimalusi leida selles põnevas valdkonnas esimene töökoht.

AI paberite tähtsus GenAI arendajatele

GenAI arendajatele mõeldud tehisintellekti dokumendid võimaldavad teadlastel ja ekspertidel jagada oma leide, metoodikat ja läbimurdeid laiema kogukonnaga. Neid pabereid lugedes saate juurdepääsu tehisintellekti uusimatele edusammudele, mis võimaldab teil olla kurvi ees ja teha oma töös teadlikke otsuseid. Lisaks pakuvad GenAI arendajatele mõeldud tehisintellekti dokumendid sageli üksikasjalikke selgitusi algoritmide ja tehnikate kohta, andes teile sügavama ülevaate nende toimimisest ja nende rakendamisest reaalsete probleemide lahendamisel.

AI paberite lugemine GenAI arendajatele pakub ambitsioonikatele tehisintellekti arendajatele mitmeid eeliseid. Esiteks aitab see teil olla kursis valdkonna uusimate uuringute ja suundumustega. Need teadmised on tehisintellektiga seotud töökohtadele kandideerimisel üliolulised, kuna tööandjad otsivad sageli kandidaate, kes on kursis viimaste edusammudega. Lisaks võimaldab tehisintellekti paberite lugemine laiendada oma teadmisi ja omandada sügavam arusaam AI kontseptsioonidest ja metoodikatest. Neid teadmisi saab rakendada oma projektides ja uurimistöös, muutes teist pädevamaks ja osavamaks tehisintellekti arendajaks.

AI dokumendid GenAI arendajatele

Sisukord

Paber 1: Trafod: Tähelepanu on kõik, mida vajate

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Artiklis tutvustatakse Transformerit, uudset närvivõrgu arhitektuuri järjestuste edastamise ülesannete jaoks, nagu masintõlge. Erinevalt traditsioonilistest mudelitest, mis põhinevad korduvatel või konvolutsioonilistel närvivõrkudel, tugineb Transformer ainult tähelepanumehhanismidele, välistades vajaduse kordumise ja konvolutsioonide järele. Autorid väidavad, et see arhitektuur pakub suurepärast jõudlust tõlkekvaliteedi, suurema paralleelsuse ja lühendatud koolitusaja osas.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. Tähelepanu mehhanism

    Transformer on täielikult üles ehitatud tähelepanumehhanismidele, võimaldades tal tabada sisend- ja väljundjadade vahelisi globaalseid sõltuvusi. See lähenemine võimaldab mudelil kaaluda seoseid, ilma et seda piiraks järjestuste elementide vaheline kaugus.
  1. Paralleelsus

    Transformeri arhitektuuri üks peamisi eeliseid on selle suurem paralleelsus. Traditsioonilised korduvad mudelid kannatavad järjestikuse arvutuse tõttu, mis muudab paralleelsuse keeruliseks. Transformeri disain võimaldab tõhusamat paralleeltöötlust treeningu ajal, vähendades sellega treeninguid.

  1. Suurepärane kvaliteet ja tõhusus

    Artiklis esitatakse eksperimentaalsed tulemused masintõlkeülesannete kohta, mis näitavad, et Transformer saavutab olemasolevate mudelitega võrreldes parema tõlkekvaliteedi. See ületab varasemaid tipptasemel tulemusi, sealhulgas ansamblimudeleid, märkimisväärse varuga. Lisaks saavutab Transformer need tulemused oluliselt lühema treeningajaga.
  1. Tõlke jõudlus

    WMT 2014 inglise-saksa keelde tõlkimise ülesandes saavutab pakutud mudel BLEU skoori 28.4, ületades olemasolevaid parimaid tulemusi enam kui 2 BLEU võrra. Inglise-prantsuse ülesande puhul loob mudel uue ühe mudeli tipptasemel BLEU skoori 41.8 pärast vaid 3.5-päevast treenimist kaheksal GPU-l.
  1. Teiste ülesannete üldistamineAutorid näitavad, et Transformeri arhitektuur üldistab hästi masintõlkeülesannete jaoks. Nad rakendavad mudelit edukalt ingliskeelse valijaskonna parsimisel, näidates selle kohanemisvõimet erinevate järjestuste ülekandeprobleemidega.

Referaat 2: BERT: Deep Bidirectional Transformers for Language Understanding

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Keelemudeli eelkoolitus on osutunud tõhusaks erinevate loomuliku keele töötlemise ülesannete täiustamisel. Töös eristatakse funktsioonipõhiseid ja peenhäälestusmeetodeid eelkoolitatud keeleesitluste rakendamiseks. BERTi tutvustatakse selleks, et käsitleda peenhäälestusmeetodite piiranguid, eriti standardsete keelemudelite ühesuunalisuse piiranguid. Dokumendis pakutakse välja „maskitud keelemudeli” (MLM) eelkoolituse eesmärk, mis on inspireeritud ülesandest Cloze, et võimaldada kahesuunalisi esitusi. Ülesannet "järgmise lause ennustamine" kasutatakse ka tekstipaaride esituste ühiseks ettevalmistamiseks.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. Kahesuunalise eelkoolituse tähtsus

    Töös rõhutatakse kahesuunalise eelkoolituse tähtsust keeleesituses. Erinevalt eelmistest mudelitest kasutab BERT maskeeritud keelemudeleid, et võimaldada sügavaid kahesuunalisi esitusi, ületades varasemates töödes kasutatud ühesuunalisi keelemudeleid.
  1. Ülesandespetsiifiliste arhitektuuride vähendamine

    BERT näitab, et eelkoolitatud esindused vähendavad vajadust tugevalt projekteeritud ülesandespetsiifiliste arhitektuuride järele. Sellest saab esimene peenhäälestuspõhine esitusmudel, mis saavutab tipptasemel jõudluse mitmesuguste lause- ja märgitaseme ülesannete puhul, edestades ülesandespetsiifilisi arhitektuure.
  1. Tipptasemel edusammud

    BERT saavutab üheteistkümne loomuliku keele töötlemise ülesandega uusi tipptasemel tulemusi, mis näitab selle mitmekülgsust. Märkimisväärsed täiustused hõlmavad GLUE skoori olulist suurenemist, MultiNLI täpsust ning täiustusi SQuAD v1.1 ja v2.0 küsimustele vastamise ülesannetes.

Võite lugeda ka järgmist: BERTi peenhäälestus maskeeritud keele modelleerimisega

3. artikkel: GPT: keelemudelid on vähesed õppijad

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Artiklis käsitletakse loomuliku keele töötlemise (NLP) ülesannete täiustusi keelemudelite suurendamise teel, keskendudes GPT-3 (Generative Pre-trained Transformer 3), autoregressiivne keelemudel 175 miljardi parameetriga. Autorid rõhutavad, et kuigi hiljuti NLP mudelid demonstreerivad eelkoolituse ja peenhäälestuse kaudu märkimisväärset kasu, nõuavad sageli ülesandepõhiseid andmekogumeid koos tuhandete näidetega peenhäälestamiseks. Seevastu inimesed saavad täita uusi keeleülesandeid väheste näidete või lihtsate juhistega.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. Suurendamine parandab mõne kaadri jõudlust

    Autorid näitavad, et keelemudelite suurendamine parandab märkimisväärselt ülesannete agnostilist ja väheste kaadritega jõudlust. Oma suure parameetri suurusega GPT-3 saavutab mõnikord konkurentsivõime tipptasemel peenhäälestusmeetoditega ilma ülesandepõhise peenhäälestuse või gradientvärskendusteta.

  2. Lai kohaldatavus

    GPT-3 toimib hästi erinevate NLP-ülesannete puhul, sealhulgas tõlkimine, küsimustele vastamine, sulgemisülesanded ja ülesanded, mis nõuavad käigupealt arutluskäiku või domeeni kohandamist.
  3. Väljakutsed ja piirangud

    Kuigi GPT-3 näitab märkimisväärseid väheste võtetega õppimisvõimalusi, tuvastavad autorid andmestikud, kus see vaevab, ja tõstavad esile suurtes veebikorpustes treenimisega seotud metoodilisi probleeme.
  4. Inimlike artiklite genereerimine

    GPT-3 võib luua uudisteartikleid, mida hindajatel on raske inimeste kirjutatud artiklitest eristada.
  5. Ühiskondlikud mõjud ja laiemad kaalutlused

    Artiklis käsitletakse GPT-3 võimaluste laiemaid ühiskondlikke mõjusid, eriti inimsarnase teksti loomisel. Selle erinevate ülesannete täitmise mõjusid käsitletakse praktiliste rakenduste ja võimalike väljakutsete seisukohast.
  6. Praeguste NLP-lähenemiste piirangud

    Autorid rõhutavad praeguste NLP-lähenemiste piiranguid, eriti nende sõltuvust ülesandepõhistest peenhäälestusandmekogumitest, mis tekitavad probleeme, nagu suurte märgistatud andmekogumite nõue ja kitsastesse ülesannete jaotustesse sobitamise oht. Lisaks tekitab muret nende mudelite üldistusvõime väljaspool nende koolituse levitamise piire.

Paber 4: CNN-id: ImageNeti klassifikatsioon sügavate konvolutsiooniliste närvivõrkudega

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Dokumendis kirjeldatakse suure, sügava konvolutsioonilise närvivõrgu (CNN) väljatöötamist ja treenimist kujutiste klassifitseerimiseks ImageNet Large Scale Visual Recognition Challenge (ILSVRC) andmekogumites. See mudel parandab oluliselt klassifitseerimise täpsust võrreldes varasemate tipptasemel meetoditega.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. Mudeli arhitektuur

    Uuringus kasutatud närvivõrk on sügav CNN, millel on 60 miljonit parameetrit ja 650,000 1000 neuronit. See koosneb viiest konvolutsioonilisest kihist, millest mõnele järgnevad max-pooling kihid, ja kolmest täielikult ühendatud kihist, mille klassifitseerimiseks on lõplik XNUMX-suunaline softmax.

  1. Treeningu andmed

    Mudelit on koolitatud ImageNet ILSVRC-1.2 võistluse 2010 miljonist kõrge eraldusvõimega pildist koosneva olulise andmekogumiga. Koolitusprotsess hõlmab piltide klassifitseerimist 1000 erinevasse klassi.
  1. jõudlus

    Mudel saavutab testiandmetel top-1 ja top-5 veamäärad vastavalt 37.5% ja 17.0%. Need veamäärad on tunduvalt paremad kui varasemad tipptasemel meetodid, mis näitab pakutud lähenemisviisi tõhusust.

  1. Täiustused Overfittingis

    Dokumendis tutvustatakse mitut tehnikat ülepaigutamise probleemide lahendamiseks, sealhulgas mitteküllastuvaid neuroneid, tõhusat GPU rakendamist kiiremaks treenimiseks ja seadustamismeetodit, mida nimetatakse "väljalangemiseks" täielikult ühendatud kihtides.
  2. Arvutusefektiivsus

    Vaatamata suurte CNN-ide väljaõppe arvutusnõuetele, märgitakse dokumendis, et praegused GPU-d ja optimeeritud teostused võimaldavad selliste mudelite treenimist kõrge eraldusvõimega piltidel.

  1. Sissemaksed

    Dokumendis tuuakse esile uuringu panus, sealhulgas ühe suurima konvolutsioonilise närvivõrgu koolitamine ImageNeti andmekogumites ja tipptasemel tulemuste saavutamine ILSVRC võistlustel.

Võite lugeda ka järgmist: Põhjalik õpetus konvolutsiooniliste närvivõrkude õppimiseks

Paber 5: GAT: Graph Attention Networks

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Dokumendis tutvustatakse tähelepanupõhist arhitektuuri graafikustruktuuriga andmete sõlmede klassifitseerimiseks, demonstreerides selle tõhusust, mitmekülgsust ja konkurentsivõimelist jõudlust erinevate võrdlusaluste lõikes. Tähelepanumehhanismide kaasamine osutub võimsaks vahendiks meelevaldselt struktureeritud graafikute käsitlemisel.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. Graafilised tähelepanuvõrgustikud (GAT)GAT-id võimendavad maskeeritud enesetähelepanu kihte, et kõrvaldada graafiku konvolutsioonidel põhinevate varasemate meetodite piirangud. Arhitektuur võimaldab sõlmedel jälgida oma naabruskonna funktsioone, määrates kaudselt erinevatele sõlmedele erineva kaalu, ilma kulukatele maatriksioperatsioonidele või graafiku struktuuri a priori teadmistele tuginemata.
  1. Spektripõhiste väljakutsetega tegelemine

    GAT-id lahendavad samaaegselt mitmeid väljakutseid spektripõhistes graafilistes närvivõrkudes. Graafilise tähelepanuvõrgu (GAT) väljakutsed hõlmavad ruumiliselt lokaliseeritud filtreid, intensiivseid arvutusi ja mitteruumiliselt lokaliseeritud filtreid. Lisaks sõltuvad GAT-id Laplacia omaalusest, aidates kaasa nende rakendatavusele induktiivsete ja transduktiivsete probleemide korral.
  1. Toimivus võrdlusaluste lõikes

    GAT-mudelid saavutavad või vastavad nüüdisaegsetele tulemustele neljas väljakujunenud graafiku võrdlusaluses: Cora, Citeseer ja Pubmed tsiteerimisvõrgu andmestik, samuti valgu-valgu interaktsiooni andmestik. Need võrdlusalused hõlmavad nii transduktiivseid kui ka induktiivseid õppimisstsenaariume, näidates GAT-ide mitmekülgsust.
  1. Võrdlus eelmiste lähenemisviisidega

    Artikkel annab põhjaliku ülevaate varasematest lähenemisviisidest, sealhulgas rekursiivsetest närvivõrkudest, Graafik närvivõrgud (GNN-id), spektraalsed ja mittespektraalsed meetodid ning tähelepanumehhanismid. GAT-id sisaldavad tähelepanumehhanisme, mis võimaldavad tõhusat paralleelseerimist sõlme-naaberpaaride vahel ja rakendamist erineva astmega sõlmedele.
  1. Tõhusus ja rakendatavusGAT-id pakuvad paralleelset ja tõhusat toimingut, mida saab rakendada erineva astmega graafikusõlmedele, määrates naabritele suvalised kaalud. Mudel kehtib otseselt induktiivsete õppimisprobleemide puhul, muutes selle sobivaks ülesannete jaoks, kus on vaja üldistada täiesti nähtamatuteks graafikuteks.
  1. Seos eelmiste mudelitega

    Autorid märgivad, et GAT-e saab ümber sõnastada kui MoNeti konkreetset eksemplari, jagada sarnasusi relatsioonivõrkudega ja luua ühenduse töödega, mis kasutavad naabruskonna tähelepanu toiminguid. Kavandatud tähelepanumudelit võrreldakse seotud lähenemisviisidega, nagu Duan et al. (2017) ja Denil jt. (2017).

Paber 6: ViT: pilt on väärt 16 × 16 Sõnad: Transformerid kujutise mastaabis tuvastamiseks

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Dokumendis tunnistatakse konvolutsiooniliste arhitektuuride domineerimist arvutinägemises, hoolimata Transformeri arhitektuuride edust loomuliku keele töötlemisel. Inspireerituna trafode tõhususest ja mastaapsusest NLP-s, rakendasid autorid standardset trafot otse piltidele minimaalsete muudatustega.

Nad tutvustavad Vision Transformer (ViT), kus pildid on jagatud paikadeks ja nende plaastrite lineaarsete manuste jada toimib transformaatori sisendina. Mudelit koolitatakse piltide klassifitseerimise ülesannete osas juhendatud viisil. Esialgu saavutab ViT keskmise suurusega andmekogumitega, nagu ImageNet, ilma tugeva regulaarsuseta treenides täpsuse, mis on veidi väiksem kui võrreldav ResNet.

Siiski näitavad autorid, et suuremahuline koolitus on ViT edu jaoks ülioluline, ületades teatud induktiivsete eelarvamuste puudumisest tulenevad piirangud. Massiivsete andmekogumitega eelkoolituse korral ületab ViT tipptasemel konvolutsioonivõrke mitmel võrdlusalusel, sealhulgas ImageNet, CIFAR-100 ja VTAB. Dokumendis rõhutatakse skaleerimise mõju märkimisväärsete tulemuste saavutamisel arvutinägemises Transformeri arhitektuuriga.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. Trafo arvutinägemises

    Dokumendis esitatakse kahtluse alla arvutinägemise ülesannete puhul valitsev sõltuvus konvolutsioonilistest närvivõrkudest (CNN). See näitab, et puhas transformer, kui seda rakendatakse otse pildipaikade jadadele, võib saavutada suurepärase jõudluse kujutiste klassifitseerimise ülesannetes.
  1. Vision Transformer (ViT)

    Autorid tutvustavad Vision Transformerit (ViT), mudelit, mis kasutab NLP-s Transformersiga sarnaseid enesetähelepanu mehhanisme. ViT suudab saavutada konkurentsivõimelisi tulemusi erinevatel pildituvastuse etalonidel, sealhulgas ImageNet, CIFAR-100 ja VTAB.
  1. Eelkoolitus ja ülekandeõpe

    Töös rõhutatakse, kui oluline on eelkoolitus suurte andmemahtude osas sarnaselt NLP-s kasutatavale lähenemisele ja seejärel õpitud esituste ülekandmine konkreetsetesse pildituvastusülesannetesse. Kui ViT on eelkoolitatud massiivsete andmekogumitega, nagu ImageNet-21k või JFT-300M, ületab selle tipptasemel konvolutsioonivõrkude toimivus erinevatel võrdlusalustel.
  1. ArvutusefektiivsusViT saavutab märkimisväärseid tulemusi koolituse ajal oluliselt vähemate arvutusressurssidega kui nüüdisaegsed konvolutsioonivõrgud. See tõhusus on eriti märgatav, kui mudel on suures mahus eelkoolitatud.
  1. Skaleerimise mõju

    Dokumendis rõhutatakse skaleerimise olulisust arvutinägemises Transformer-arhitektuuridega suurepärase jõudluse saavutamisel. Miljoneid kuni sadu miljoneid pilte sisaldavate andmekogumite ulatuslik koolitus aitab ViT-l ületada CNN-ides esinevate induktiivsete eelarvamuste puudumise.

Paber 7: AlphaFold2: ülitäpne valgu struktuur AlphaFoldiga

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Paber “AlphaFold2: ülitäpne valgu struktuur AlphaFoldiga” tutvustab AlphaFold2, sügavat õppimismudelit, mis ennustab täpselt valgu struktuure. AlphaFold2 kasutab uudset tähelepanupõhist arhitektuuri ja saavutab läbimurde valkude voltimises.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  • AlfaFold2 kasutab sügavat närvivõrku koos tähelepanumehhanismidega, et ennustada valkude 3D-struktuuri nende aminohappejärjestuste põhjal.
  • Mudelit koolitati teadaolevate valgustruktuuride suurel andmekogumil ja see saavutas enneolematu täpsuse 14. valgu struktuuri prognoosimise (CASP14) valgu voltimisvõistlusel.
  • AlphaFold2 täpsed ennustused võivad potentsiaalselt revolutsiooniliselt muuta ravimite avastamist, valgutehnoloogiat ja muid biokeemia valdkondi.

8. artikkel: GAN-id: generatiivsed võistlevad võrgud

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Artiklis käsitletakse sügavate generatiivsete mudelite koolitamise väljakutseid ja tutvustatakse uuenduslikku lähenemist, mida nimetatakse võistlevateks võrkudeks. Selles raamistikus osalevad generatiivsed ja diskrimineerivad mudelid mängus, kus generatiivse mudeli eesmärk on toota proove, mida ei eristata tegelikest andmetest. Seevastu diskrimineeriv mudel eristab tegelikke ja genereeritud valimeid. Konkurentsipõhine koolitusprotsess viib ainulaadse lahenduseni, generatiivne mudel taastab andmete levitamise.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. Konkurentsipõhine raamistik

    Autorid tutvustavad võistlevat raamistikku, kus koolitatakse samaaegselt kahte mudelit – generatiivset mudelit (G), mis fikseerib andmete jaotuse, ja diskrimineerivat mudelit (D), mis hindab tõenäosust, et valim pärines pigem koolitusandmetest kui generatiivsest mudelist.
  1. Minimax mängKoolitusprotseduur hõlmab diskrimineeriva mudeli vea tegemise tõenäosuse maksimeerimist. See raamistik on sõnastatud minimax kahe mängijaga mänguna, kus generatiivse mudeli eesmärk on genereerida näidiseid, mida ei eristata tegelikest andmetest, ja diskrimineeriva mudeli eesmärk on klassifitseerida, kas valim on tõeline või genereeritud õigesti.
  1. Unikaalne lahendus

    G ja D suvalistes funktsioonides on ainulaadne lahendus, kus G taastab treeningandmete jaotuse ja D on kõikjal võrdne 1/2-ga. See tasakaal saavutatakse võistleva koolitusprotsessi kaudu.
  1. Mitmekihilised pertseptronid (MLP-d)Autorid näitavad, et kogu süsteemi saab treenida tagasilevitamise abil, kui mitmekihilised pertseptronid esindavad G ja D. See välistab vajaduse Markovi ahelate või lahtirullitud ligikaudsete järeldusvõrkude järele treenimise ja proovide genereerimise ajal.
  1. Ligikaudset järeldust pole

    Kavandatav raamistik väldib raskusi raskete tõenäosusarvutuste lähendamisel maksimaalse tõenäosuse hindamisel. Samuti ületab see väljakutseid generatiivses kontekstis tükkhaaval lineaarsete ühikute eeliste ärakasutamisel.

Artikkel 9: RoBERTa: tugevalt optimeeritud BERTi eelkoolitusviis

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Artiklis käsitletakse BERTi alakoolituse probleemi ja tutvustatakse RoBERTa-d, optimeeritud versiooni, mis ületab BERTi jõudlust. RoBERTa koolitusprotseduuri muudatused ja uudse andmestiku (CC-NEWS) kasutamine aitavad saavutada kaasaegseid tulemusi mitme loomuliku keele töötlemise ülesannete puhul. Leiud rõhutavad disainivalikute ja koolitusstrateegiate tähtsust keelemudeli eelkoolituse tõhususes. Välja antud ressursid, sealhulgas RoBERTa mudel ja kood, aitavad kaasa teadlaskonnale.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. BERTi koolitus

    Autorid leiavad seda BERT, laialdaselt kasutatav keelemudel, oli oluliselt alakoolitatud. Hüperparameetrite häälestamise ja treeningkomplekti suuruse hoolikalt hinnates näitavad nad, et BERT-i saab täiustada, et see vastaks või ületaks kõigi pärast seda avaldatud mudelite jõudlust.
  1. Täiustatud koolitusretsept (RoBERTa)

    Autorid tutvustavad BERTi koolitusprotseduuri muudatusi, andes tulemuseks RoBERTa. Need muudatused hõlmavad pikemaid treeningperioode suuremate partiidega, järgmise lause ennustamise eesmärgi kõrvaldamist, pikemate jadade koolitust ja koolitusandmete dünaamilise maskeerimismustri kohandamist.
  1. Andmestiku panusArtiklis tutvustatakse uut andmekogumit nimega CC-NEWS, mis on suuruselt võrreldav teiste eraviisiliselt kasutatavate andmekogumitega. Selle andmestiku kaasamine aitab paremini juhtida treeningkomplekti suuruse mõjusid ja aitab kaasa parematele ülesannete täitmisele.
  1. Tulemuslikkuse saavutused

    RoBERTa saavutab soovitatud muudatustega tipptasemel tulemused erinevate võrdlusülesannete puhul, sealhulgas GLUE, RACE ja SQuAD. See ühtib või ületab kõigi BERT-järgsete meetodite jõudlust selliste ülesannete puhul nagu MNLI, QNLI, RTE, STS-B, SQuAD ja RACE.
  1. Maskeeritud keelemudeli eelkoolituse konkurentsivõime

    Dokumendis kinnitatakse veel kord, et maskeeritud keelemudeli eelkoolituse eesmärk koos õigete disainivalikutega on konkurentsivõimeline teiste hiljuti välja pakutud koolituseesmärkidega.
  1. Välja antud ressursid

    Autorid avaldavad oma RoBERTa mudeli koos PyTorchis rakendatud eelkoolituse ja peenhäälestuskoodiga, aidates kaasa nende tulemuste reprodutseeritavuse ja edasise uurimise saavutamisele.

Samuti loe: Õrn sissejuhatus RoBERTasse

10. artikkel: NeRF: stseenide kujutamine neuraalse kiirgusväljana vaate sünteesiks

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Optimeerimine hõlmab vea minimeerimist teadaolevate kaamerapoosidega vaadeldud piltide ja pidevast stseeni esituses kuvatavate vaadete vahel. Dokumendis käsitletakse lähenemise ja tõhususega seotud väljakutseid, võttes kasutusele kõrgema sagedusega funktsioonide käsitlemiseks positsioonikodeeringu ja pakkudes välja hierarhilise diskreetimisprotseduuri, et vähendada piisavaks diskreetimiseks vajalike päringute arvu.

GenAI arendajatele mõeldud tehisintellekti paberite peamised ülevaated

  1. Pidev stseeni esitus

    Artiklis esitatakse meetod keerukate stseenide esitamiseks 5D-närvi kiirgusväljadena, kasutades põhilisi mitmekihilisi pertseptronvõrke (MLP).
  1. Diferentseeritav renderdamine

    Kavandatav renderdusprotseduur põhineb klassikalistel helitugevuse renderdustehnikatel, mis võimaldab gradiendipõhist optimeerimist standardsete RGB-piltide abil.
  1. Hierarhiline valimi strateegia

    Kasutusele võetakse hierarhiline proovivõtustrateegia, et optimeerida MLP suutlikkust nähtava stseeni sisuga piirkondade jaoks, käsitledes lähenemisprobleeme.
  1. Positsiooniline kodeeringPositsioonikodeeringu kasutamine sisendkoordinaatide kaardistamiseks kõrgema mõõtmega ruumi võimaldab edukalt optimeerida neuraalseid kiirgusvälju kõrgsagedusliku stseeni sisu jaoks.

Kavandatud meetod ületab nüüdisaegseid vaatesünteesi lähenemisviise, sealhulgas neuraalsete 3D-esitluste sobitamist ja sügavate konvolutsioonivõrkude treenimist. Selles artiklis tutvustatakse pidevat neuraalset stseeni esitust RGB-piltide kõrge eraldusvõimega fotorealistlike uudsete vaadete renderdamiseks loomulikes tingimustes. Lisavideos näidatakse täiendavaid võrdlusi, et rõhutada selle tõhusust keeruka stseeni geomeetria ja välimuse käsitlemisel.

Paber 11: FunSearch: Matemaatilised avastused programmiotsingust suurte keelemudelitega

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Artiklis tutvustatakse FunSearchi, uudset lähenemisviisi suurte keelemudelite (LLM) võimendamiseks keeruliste probleemide lahendamiseks, eriti teadusliku avastamise valdkonnas. Peamine probleem, millega tegeletakse, on konfabulatsioonide (hallutsinatsioonide) esinemine LLM-ides, mis viivad usutavate, kuid ebaõigete väideteni. FunSearch ühendab eelkoolitatud LLM-i süstemaatilise hindajaga evolutsioonilises protseduuris, et sellest piirangust üle saada.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. Probleemide lahendamine LLM-idega

    Dokumendis käsitletakse probleemi, kuidas LLM-id segavad või ei suuda luua keerulistele probleemidele uudseid ideid ja õigeid lahendusi. See rõhutab uute, kontrollitavalt õigete ideede leidmise tähtsust, eriti matemaatiliste ja teaduslike väljakutsete jaoks.

  1. Evolutsiooniline protseduur – FunSearch

    FunSearch ühendab evolutsioonilises protsessis eelkoolitatud LLM-i ja hindaja. See arendab madala punktisummaga programme iteratiivselt kõrge punktisummaga programmideks, tagades uute teadmiste avastamise. Protsess hõlmab parimat viipamist, programmide skelettide arendamist, programmide mitmekesisuse säilitamist ja asünkroonset skaleerimist.
  1. Rakendus Extremal Combinatorics

    Töö demonstreerib FunSearchi tõhusust äärmusliku kombinatoorika ülemkogumi probleemi lahendamisel. FunSearch avastab uued suurearvuliste komplektide konstruktsioonid, ületades tuntumaid tulemusi ja pakkudes asümptootilist alampiiri 20 aasta jooksul suurimat täiustust.
  1. Algoritmiprobleem – veebis prügikasti pakkimine

    FunSearchi rakendatakse veebipõhise prügikasti pakkimise probleemi lahendamiseks, mis viib uute algoritmide avastamiseni, mis on hästi uuritud huvipakkuvate jaotuste puhul paremad kui traditsioonilised. Võimalikud rakendused hõlmavad tööplaanide algoritmide täiustamist.
  1. Programmid vs lahendusedFunSearch keskendub programmide genereerimisele, mis kirjeldavad probleemi lahendamist, selle asemel, et lahendusi otse väljastada. Need programmid kipuvad olema paremini tõlgendatavad, hõlbustades suhtlust domeeniekspertidega ja neid on lihtsam juurutada kui muud tüüpi kirjeldused, näiteks närvivõrgud.
  1. Interdistsiplinaarne mõju

    FunSearchi metoodika võimaldab uurida paljusid probleeme, muutes selle interdistsiplinaarsete rakendustega mitmekülgseks. Dokumendis rõhutatakse selle potentsiaali LLM-ide abil kontrollitavate teaduslike avastuste tegemiseks.

Paper 12: VAE: Auto-Encoding Variational Bayes

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Dokumendis "Auto-Encoding Variational Bayes" käsitletakse tõhusa järelduse ja õppimise väljakutset pidevate varjatud muutujatega suunatud tõenäosusmudelites, eriti kui tagumised jaotused on lahendamatud ja tegelevad suurte andmekogumitega. Autorid pakuvad välja stohhastilise variatsioonilise järelduse ja õppimisalgoritmi, mis skaleerub hästi suurte andmekogumite jaoks ja jääb rakendatavaks isegi raskesti lahendatavates tagumistes jaotuses.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. Variatsioonilise alumise piiri ümberparameetristamine

    Dokumendis demonstreeritakse variatsiooni alampiiri ümberparameetristamist, mille tulemuseks on alampiiri hindaja. Seda hindajat saab optimeerida standardsete stohhastiliste gradiendimeetodite abil, muutes selle arvutuslikult tõhusaks.
  1. Tõhus tagumine järeldus pidevate varjatud muutujate jaoksAutorid pakuvad välja automaatse kodeerimise VB (AEVB) algoritmi andmehulkade jaoks, millel on pidevad varjatud muutujad andmepunkti kohta. See algoritm kasutab äratundmismudeli optimeerimiseks Stochastic Gradient Variational Bayes (SGVB) hindajat, võimaldades tõhusat ligikaudset posterioorset järeldust esivanemate valimi võtmise kaudu. See lähenemisviis väldib iga andmepunkti jaoks kulukaid iteratiivseid järeldusskeeme, nagu Markov Chain Monte Carlo (MCMC).
  1. Teoreetilised eelised ja katsetulemused

    Kavandatud meetodi teoreetilised eelised kajastuvad katsetulemustes. Dokumendis soovitatakse, et ümberparameetrite ja tuvastusmudel toob kaasa arvutusliku tõhususe ja mastaapsuse, muutes lähenemisviisi rakendatavaks suurte andmekogumite puhul ja olukordades, kus tagumine on raskesti lahendatav.

Loe ka: Stohhastilisuse olemuse paljastamine masinõppes

Referaat 13: PIKAAJALINE MÄLU

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Artiklis käsitletakse väljakutset õppida korduvates närvivõrkudes teavet pikemate ajavahemike jooksul salvestama. See tutvustab uudset ja tõhusat gradiendipõhist meetodit nimega "Long Short-Term Memory" (LSTM), mis aitab ületada ebapiisava ja laguneva vea tagasivoolu probleemid. LSTM jõustab pideva veavoo läbi "pidevate veakarussellide" ja kasutab juurdepääsu kontrollimiseks korduvaid paisuühikuid. Kohaliku aegruumi keerukusega (O(1) ajasammu ja kaalu kohta) näitavad katsetulemused, et LSTM ületab õppimiskiiruse ja edukuse osas olemasolevaid algoritme, eriti pika ajavahega ülesannete puhul.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. Probleemi analüüs

    Dokumendis antakse üksikasjalik analüüs korduvate närvivõrkude vigade tagasivooluga seotud väljakutsete kohta, tuues välja veasignaalide plahvatusohtlikud või kaduvad probleemid aja jooksul.
  1. LSTM-i tutvustus

    Autorid tutvustavad LSTM-i kui uudset arhitektuuri, mis on loodud veasignaalide kadumise ja plahvatuse probleemide lahendamiseks. LSTM sisaldab pidevat veavoogu läbi spetsiaalsete üksuste ja kasutab sellele veavoole juurdepääsu reguleerimiseks multiplikatiivseid paisuseadmeid.
  1. Katsetulemused

    Kunstlike andmetega tehtud katsete kaudu demonstreerib artikkel, et LSTM ületab teisi korduvaid võrgualgoritme, sealhulgas BPTT, RTRL, korduv kaskaadkorrelatsioon, Elmani võrgud ja närvijärjestuse tükeldamine. LSTM näitab kiiremat õppimist ja kõrgemat edukuse määra, eriti keerukate ülesannete lahendamisel pika viivitusega.
  1. Kohalik ruumis ja ajas

    LSTM-i kirjeldatakse kui lokaalset ruumilist ja ajaarhitektuuri, mille arvutuslik keerukus ajasammu ja kaalu kohta on O(1).
  1. Kohaldatavus

    Kavandatud LSTM-i arhitektuur lahendab tõhusalt keerukaid kunstlikke pikaajalisi viivitusülesandeid, mida varasemad korduvad võrgualgoritmid pole edukalt lahendanud.

  1. Piirangud ja eelised

    Artiklis käsitletakse LSTM-i piiranguid ja eeliseid, pakkudes ülevaadet kavandatava arhitektuuri praktilisest rakendatavusest.

Loe ka: Mis on LSTM? Pika lühiajalise mälu sissejuhatus

Artikkel 14: Ülekantavate visuaalsete mudelite õppimine loomuliku keele järelevalvest

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Artiklis uuritakse nüüdisaegsete arvutinägemissüsteemide koolitamist, õppides otse toortekstist piltide kohta, mitte tuginedes eelnevalt kindlaksmääratud objektikategooriate fikseeritud komplektidele. Autorid pakuvad välja koolituseelse ülesande ennustada, milline pealdis vastab antud pildile, kasutades Internetist kogutud 400 miljonist (pilt, tekst) paarist koosnevat andmekogumit. Saadud mudel CLIP (Contrastive Language-Image Pre-training) demonstreerib kujutiste esituste tõhusat ja skaleeritavat õppimist. Pärast eelkoolitust viitab loomulik keel visuaalsetele kontseptsioonidele, võimaldades nullkaadri ülekandmist erinevatele allavoolu ülesannetele. CLIP-i võrreldakse enam kui 30 arvutinägemise andmekogumis, mis näitab konkurentsivõimelist jõudlust ilma ülesandepõhise koolituseta.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

  1. Arvutinägemise loomuliku keele koolitus

    Dokumendis uuritakse loomuliku keele järelevalve kasutamist arvutinägemismudelite koolitamiseks traditsioonilise koolitusmeetodi asemel rahvahulga märgistatud andmekogumites, nagu ImageNet.
  1. Koolituseelne ülesanneAutorid pakuvad välja lihtsa eelkoolitusülesande: ennustada, milline pealdis vastab antud pildile. Seda ülesannet kasutatakse tipptasemel kujutiste esituste õppimiseks nullist 400 miljonist (pilt, tekst) paarist koosnevast andmekogust, mis on kogutud võrgus.
  1. Nullkaadri ülekanne

    Pärast eelkoolitust kasutab mudel loomulikku keelt, et viidata õpitud visuaalsetele mõistetele või kirjeldada uusi. See võimaldab mudeli nullkaadri ülekandmist allavoolu ülesannetesse, ilma et oleks vaja spetsiifilist andmestiku koolitust.
  1. Erinevate ülesannete võrdlusuuringud

    Dokumendis hinnatakse pakutud lähenemisviisi toimivust enam kui 30 erineval arvutinägemise andmestikul, hõlmates selliseid ülesandeid nagu OCR, tegevuse tuvastamine videotes, geolokaliseerimine ja objektide peeneteraline klassifitseerimine.
  1. Konkurentsivõimeline jõudlus

    Mudel demonstreerib konkurentsivõimelist jõudlust erinevate ülesannete täieliku järelevalve all olevate algtasemetega, sageli sobitades või ületades ülesandespetsiifiliste andmekogumitega koolitatud mudelite täpsust ilma täiendava andmekogumispetsiifilise koolituseta.
  1. Skaalautuvuse uuring

    Autorid uurivad oma lähenemisviisi skaleeritavust, koolitades kaheksa erineva arvutusressursside tasemega mudeli seeriat. On leitud, et edastusjõudlus on andmetöötluse sujuvalt prognoositav funktsioon.
  1. Mudeli vastupidavus

    Dokumendis rõhutatakse, et nullkaadri CLIP-mudelid on vastupidavamad kui samaväärse täpsusega kontrollitud ImageNeti mudelid, mis viitab sellele, et ülesandeagnostiliste mudelite nullkaadri hindamine annab mudeli võimekuse esinduslikuma mõõtmise.

Paber 15: LORA: SUURE KEELE MUDELITE MADAALANE KOHANDAMINE

Link: Loe siit

AI dokumendid GenAI arendajatele

Paberi kokkuvõte

Dokumendis pakutakse välja LoRA-d kui tõhusat meetodit suurte eelkoolitatud keelemudelite kohandamiseks konkreetsetele ülesannetele, lahendades nende suureneva suurusega seotud kasutuselevõtuprobleeme. Meetod vähendab oluliselt treenitavaid parameetreid ja GPU-mälu nõudeid, säilitades või parandades samal ajal mudeli kvaliteeti erinevatel võrdlusalustel. Avatud lähtekoodiga rakendamine hõlbustab veelgi LoRA kasutuselevõttu praktilistes rakendustes.

Peamised ülevaated AI-dokumentidest GenAI arendajatele

1. Probleemipüstituses

  • Suuremahuline eelkoolitus, millele järgneb peenhäälestus, on loomuliku keele töötlemisel levinud lähenemisviis.
  • Mudelite kasvades muutub peenhäälestus vähem teostatavaks, eriti suurte parameetritega mudelite, näiteks GPT-3 (175 miljardit parameetrit) juurutamisel.

2. Kavandatud lahendus: madala tasemega kohandamine (LoRA)

  • Dokumendis tutvustatakse LoRA-t, meetodit, mis külmutab eelnevalt treenitud mudelikaalud ja tutvustab transformeri arhitektuuri igasse kihti treenitavaid järkjärgulise lagunemise maatrikseid.
  • LoRA vähendab oluliselt allavoolu ülesannete jaoks treenitavate parameetrite arvu võrreldes täieliku peenhäälestusega.

3. LoRA eelised

  • Parameetrite vähendamine: võrreldes peenhäälestusega võib LoRA vähendada treenitavate parameetrite arvu kuni 10,000 XNUMX korda, muutes selle arvutuslikult tõhusamaks.
  • Mälu tõhusus: LoRA vähendab peenhäälestusega võrreldes GPU mäluvajadust kuni 3 korda.
  • Mudeli kvaliteet: hoolimata sellest, et treenitavaid parameetreid on vähem, toimib LoRA erinevate mudelite, sealhulgas RoBERTa, DeBERTa, GPT-2 ja GPT-3 mudelikvaliteedi osas samaväärselt või paremini kui peenhäälestus.

4. Kasutuselevõtuprobleemide ületamine

  • Dokumendis käsitletakse paljude parameetritega mudelite juurutamise väljakutset, võttes kasutusele LoRA, mis võimaldab tõhusat ülesannete vahetamist ilma kogu mudelit ümber õpetamata.

5. Tõhusus ja madal järelduste latentsus

  • LoRA hõlbustab eelkoolitatud mudeli jagamist mitme LoRA mooduli loomiseks erinevate ülesannete jaoks, vähendades salvestusnõudeid ja ülesannete vahetamise üldkulusid.
  • Koolitus muudetakse tõhusamaks, alandades adaptiivsete optimeerijate kasutamisel riistvaralist sisenemisbarjääri kuni 3 korda.

6. Ühilduvus ja integratsioon

  • LoRA ühildub erinevate varasemate meetoditega ja on nendega kombineeritav, näiteks eesliidete häälestamine.
  • Kavandatav lineaarne disain võimaldab liita treenitavaid maatrikseid külmutatud raskustega juurutamise ajal, lisamata täiendavat järelduste latentsust võrreldes täielikult peenhäälestatud mudelitega.

7. Empiiriline uurimine

  • Artikkel sisaldab empiirilist uurimist keelemudeli kohandamise auastme puudulikkuse kohta, pakkudes ülevaadet LoRA lähenemisviisi tõhususest.

8. Avatud lähtekoodiga juurutamine

  • Autorid pakuvad paketti, mis hõlbustab LoRA integreerimist PyTorchi mudelitega ning RoBERTa, DeBERTa ja GPT-2 väljalaske rakendusi ja mudeli kontrollpunkte.

Samuti saate lugeda: Suurte keelemudelite parameetrite tõhus peenhäälestus LoRA ja QLoRA abil

Järeldus

Kokkuvõtteks võib öelda, et selles artiklis esile tõstetud 15 olulise AI-dokumendi uurimine GenAI arendajatele ei ole pelgalt soovitus, vaid strateegiline kohustus iga ambitsioonikale arendajale. Need tehisintellekti dokumendid pakuvad põhjalikku teekonda läbi tehisintellekti mitmekesise maastiku, hõlmates kriitilisi valdkondi, nagu loomuliku keele töötlemine, arvutinägemine ja muud. Sukeldudes nendes paberites esitatud arusaamadesse ja uuendustesse, saavad arendajad põhjalikult mõista valdkonna tipptasemel tehnikaid ja algoritme.

Ajatempel:

Veel alates Analüütika Vidhya