Tehokkaimmat seitsemän kielen (LLM) ja visiokielimallin (VLM) muuttavat tekoälyä vuonna 7

Tehokkaimmat seitsemän kielen (LLM) ja visiokielimallin (VLM) muuttavat tekoälyä vuonna 7

Lähdesolmu: 2757531

BLIP-2, visiokielimallit

Nopeasti kehittyvällä tekoälyn alalla luonnollisen kielen käsittelystä on tullut niin tutkijoiden kuin kehittäjienkin keskipiste. Perustusten varaan rakentaminen Muuntaja arkkitehtuuri ja BERTin kaksisuuntainen päivitys, viime vuosina on syntynyt useita uraauurtavia kielimalleja, jotka ovat siirtäneet rajoja sille, mitä koneet voivat ymmärtää ja tuottaa.

Tässä artikkelissa perehdymme uusimpiin edistysaskeleihin suurten kielimallien maailmassa ja tutkimme kunkin mallin tuomia parannuksia, niiden ominaisuuksia ja mahdollisia sovelluksia. Tarkastelemme myös visuaalisia kielimalleja (VLM), jotka on koulutettu käsittelemään tekstin lisäksi myös visuaalista dataa.

Jos haluat ohittaa, tässä on esiteltyjä kielimalleja:

  1. GPAI-3 OpenAI: lta
  2. Googlen LaMDA
  3. Googlen PaLM
  4. DeepMindin Flamingo
  5. Salesforcen BLIP-2
  6. LLaMA, Meta AI
  7. GPAI-4 OpenAI: lta

Jos tästä perusteellisesta opetussisällöstä on hyötyä sinulle, voit tilaa AI-tutkimuksen postituslista hälytys, kun julkaisemme uutta materiaalia. 

Tärkeimmät suuret kielimallit (LLM) ja visuaaliset kielimallit (VLM) vuonna 2023

1. OpenAI:n GPT-3

Yhteenveto 

OpenAI-tiimi esitteli GPT-3:n vaihtoehtona tunnistetulle tietojoukolle jokaista uutta kielitehtävää varten. He ehdottivat, että kielimallien skaalaaminen voi parantaa tehtävien agnostisten muutaman otoksen suorituskykyä. Tämän ehdotuksen testaamiseksi he kouluttivat 175 B-parametrin autoregressiivisen kielimallin, nimeltään GPT-3ja arvioi sen suorituskykyä yli kahdessa tusinassa NLP-tehtävässä. Arviointi muutaman otoksen oppimisen, yhden kerran oppimisen ja zero-shot -oppimisen perusteella osoitti, että GPT-3 saavutti lupaavia tuloksia ja jopa ylitti ajoittain hienosäädetyillä malleilla saavutetut huippuluokan tulokset. 

Mikä on tavoite? 

  • Vaihtoehtoisen ratkaisun ehdottaminen olemassa olevaan ongelmaan, kun jokaista uutta kielitehtävää varten tarvitaan merkitty tietojoukko.

Miten ongelmaa lähestytään?

  • Tutkijat ehdottivat kielimallien skaalaamista tehtävien agnostisten muutaman otoksen suorituskyvyn parantamiseksi. 
  • - GPT-3 malli käyttää samaa mallia ja arkkitehtuuria kuin GPT-2, mukaan lukien muokattu alustus, esinormalisointi ja palautuva tokenointi.
  • Kuitenkin, toisin kuin GPT-2, se käyttää vaihtelevia tiheitä ja paikallisesti kaistaisia ​​harvoja huomiota kuvioita muuntajan kerroksissa, kuten Harvinainen muuntaja.
GPT-3

Mitkä ovat tulokset?

  • GPT-3-malli ilman hienosäätöä saavuttaa lupaavia tuloksia useissa NLP-tehtävissä ja jopa ajoittain ylittää huipputekniset mallit, jotka hienosäädettiin kyseiseen tehtävään:
    • On CoQA vertailuarvo, 81.5 F1 nolla-laukauksen asetuksessa, 84.0 F1 yhden laukauksen asetuksessa ja 85.0 F1 muutaman laukauksen asetuksessa verrattuna hienosäädetyn SOTA: n saavuttamaan 90.7 F1-pistemäärään.
    • On TriviaQA vertailuarvo, 64.3% tarkkuus nolla-laukauksen asetuksessa, 68.0% yhden laukauksen asetuksessa ja 71.2% muutaman laukauksen asetuksessa, ylittäen tekniikan tason (68%) 3.2%.
    • On Lambada tietojoukko, 76.2%: n tarkkuus nolla-laukauksen asetuksessa, 72.5%: n yhden laukauksen asetuksessa ja 86.4%: n muutaman kuvan asetuksessa, ylittäen tekniikan tason (68%) 18%: lla.
  • 175B-parametrisen GPT-3-mallin tuottamia uutisartikkeleita on vaikea erottaa todellisista ihmisen arvioiden mukaan (tarkkuudella tuskin yli mahdollisuustason ~ 52%). 
  • Huolimatta GPT-3:n erinomaisesta suorituskyvystä, se sai AI-yhteisöltä ristiriitaisia ​​arvosteluja:
    • "GPT-3-hype on aivan liikaa. Se on vaikuttava (kiitos mukavista kohteliaisuuksista!), Mutta sillä on silti vakavia heikkouksia ja se tekee joskus hyvin typeriä virheitä. Tekoäly muuttaa maailmaa, mutta GPT-3 on vain hyvin varhainen katsaus. Meillä on vielä paljon selvitettävää. " - Sam Altman, OpenAI: n toimitusjohtaja ja perustaja.
    • "Olen järkyttynyt siitä, kuinka vaikeaa on luoda GPT-3: sta tekstiä muslimeista, jolla ei ole mitään tekemistä väkivallan kanssa ... tai että hänet tapetaan ..." - Abubakar Abid, Gradion toimitusjohtaja ja perustaja.
    • "Ei. GPT-3 ei periaatteessa ymmärrä maailmaa, josta se puhuu. Korpuksen lisääminen edelleen antaa sille mahdollisuuden luoda uskottavampi pastiche, mutta ei korjaa sen perustavaa puutetta maailmasta. GPT-4: n esittelyt vaativat edelleen ihmisen kirsikkanäytön. " - Gary Marcus, Robust.ai: n toimitusjohtaja ja perustaja.
    • "GPT3: n näyttävän suorituskyvyn ekstrapolointi tulevaisuuteen viittaa siihen, että vastaus elämään, maailmankaikkeuteen ja kaikkeen on vain 4.398 XNUMX biljoonaa muuttujaa." - Geoffrey Hinton, Turing-palkinnon voittaja.

Mistä saa lisätietoa tästä tutkimuksesta?

Mistä saat käyttöönottokoodin?

  • Koodi itsessään ei ole käytettävissä, mutta joitain tietojoukkotilastoja sekä ehdottomia, suodattamattomia 2048-merkkisiä näytteitä GPT-3: sta julkaistaan GitHub.

2. Googlen LaMDA

Yhteenveto 

Lakieli Mmallit varten Dvuoropuhelu Asovellukset (TheMDA) luotiin hienosäätämällä joukko Transformer-pohjaisia ​​hermokielimalleja, jotka on suunniteltu erityisesti dialogeihin. Näissä malleissa on enintään 137B parametria, ja ne on koulutettu käyttämään ulkoisia tietolähteitä. LaMDA-kehittäjillä oli kolme päätavoitetta mielessään – laatu, turvallisuus ja maadoitus. Tulokset osoittivat, että hienosäätö mahdollistaa laatukuilun kaventamisen ihmisen tasolle, mutta mallin suorituskyky jäi turvallisuuden ja maadoituksen suhteen ihmisen tason alapuolelle. 

Googlen Bard, julkaistu äskettäin vaihtoehtona ChatGPT:lle, toimii LaMDA:lla. Huolimatta siitä, että Bard on usein leimattu tylsä, sitä voidaan pitää todisteena Googlen sitoutumisesta turvallisuuden priorisoimiseen, vaikka Googlen ja Microsoftin välillä kilpaileekin valta-aseman vahvistamisesta generatiivisen tekoälyn alalla.

Mikä on tavoite? 

  • Rakentaa avoimen verkkotunnuksen dialogisovellusten malli, jossa dialogiagentti pystyy keskustelemaan mistä tahansa aiheesta niin, että vastaukset ovat järkeviä, kontekstikohtaisia, luotettaviin lähteisiin perustuvia ja eettisiä.

Miten ongelmaa lähestytään?

  • LaMDA on rakennettu Muuntaja, hermoverkkoarkkitehtuuri, jonka Google Research keksi ja avoi lähdekoodin vuonna 2017.
    • Kuten muutkin suuret kielimallit, kuten BERT ja GPT-3, LaMDA on koulutettu teratavuihin tekstidataa oppiakseen, miten sanat liittyvät toisiinsa, ja ennustamaan sitten, mitä sanoja todennäköisesti tulee seuraavaksi. 
    • Toisin kuin useimmat kielimallit, LaMDA oli kuitenkin koulutettu dialogiin poimimaan vivahteita, jotka erottavat avoimen keskustelun muista kielen muodoista.
  • Mallia on myös hienosäädetty parantamaan sen vastausten järkevyyttä, turvallisuutta ja tarkkuutta. Vaikka ilmaukset, kuten "se on mukavaa" ja "en tiedä", voivat olla merkityksellisiä monissa dialogiskenaarioissa, ne eivät todennäköisesti johda mielenkiintoisiin ja mukaansatempaaviin keskusteluihin.
    • LaMDA-generaattori luo ensin useita ehdokasvastauksia, jotka kaikki pisteytetään sen perusteella, kuinka turvallisia, järkeviä, tarkkoja ja kiinnostavia ne ovat. Matalat turvallisuuspisteet saaneet vastaukset suodatetaan pois, ja sitten vastaukseksi valitaan paras tulos.
Esimerkki LaMDA-dialogista

Mitkä ovat tulokset?

  • Lukuisat kokeet osoittavat, että LaMDA voi osallistua avoimiin keskusteluihin useista eri aiheista.
  • Useat laadulliset arvioinnit vahvistivat, että mallin vastaukset ovat yleensä järkeviä, tarkkoja, kiinnostavia ja luotettaviin ulkoisiin lähteisiin perustuvia, mutta parantamisen varaa on edelleen.
  • Kaikesta tähän mennessä saavutetusta edistyksestä huolimatta kirjoittajat tunnustavat, että mallilla on edelleen monia rajoituksia, jotka voivat johtaa sopimattomien tai jopa haitallisten reaktioiden tuottamiseen.

Mistä saa lisätietoa tästä tutkimuksesta?

Mistä saat käyttöönottokoodin?

  • Avoimen lähdekoodin PyTorch-toteutus LaMDA:n esikoulutusarkkitehtuurille on saatavilla osoitteessa GitHub.

3. Googlen PaLM

Yhteenveto 

Pathways Ltuska Model (paLM) on 540 miljardin parametrin muuntajapohjainen kielimalli. PaLM koulutettiin 6144 TPU v4 -sirulle käyttämällä Pathways-järjestelmää, uutta ML-järjestelmää tehokkaaseen harjoitteluun useiden TPU-podien välillä. Malli osoittaa skaalauksen edut muutaman kerran tapahtuvassa oppimisessa, huippuluokan tulosten saavuttamisessa satojen kielten ymmärtämisen ja sukupolvien vertailuarvoissa. PaLM ylittää hienosäädetyt huippumallit monivaiheisissa päättelytehtävissä ja ylittää ihmisen keskimääräisen suorituskyvyn BIG-benchmarkissa.

Mikä on tavoite? 

  • Parantaa ymmärrystä siitä, kuinka suurten kielimallien skaalaus vaikuttaa muutaman kerran tapahtuvaan oppimiseen.

Miten ongelmaa lähestytään?

  • Keskeisenä ideana on skaalata 540 miljardin parametrin kielimallin koulutus Pathways-järjestelmällä:
    • Ryhmä käytti tiedon rinnakkaisuutta Pod-tasolla kahdessa Cloud TPU v4 Podissa samalla kun käytti vakiodataa ja mallin rinnakkaisuutta kussakin Podissa.
    • He pystyivät skaalaamaan koulutuksen 6144 TPU v4 -siruun, joka on suurin tähän mennessä koulutuksessa käytetty TPU-pohjainen järjestelmäkokoonpano.
    • Malli saavutti 57.8 %:n laitteiston FLOP-käytön koulutustehokkuuden, mikä, kuten kirjoittajat väittävät, on korkein tähän mennessä saavutettu koulutustehokkuus suurille kielimalleille tässä mittakaavassa. 
  • PaLM-mallin koulutusdata sisälsi yhdistelmän englannin- ja monikielisiä tietojoukkoja, jotka sisälsivät korkealaatuisia verkkodokumentteja, kirjoja, Wikipediaa, keskusteluja ja GitHub-koodia.
Googlen PaLM-malli

Mitkä ovat tulokset?

  • Lukuisat kokeet osoittavat, että mallin suorituskyky parani jyrkästi, kun tiimi skaalautui suurimmalle mallilleen.
  • PaLM 540B saavutti läpimurtokyvyn useissa erittäin vaikeissa tehtävissä:
    • Kielen ymmärtäminen ja sukupolvi. Esitelty malli ylitti aikaisempien suurten mallien muutaman otoksen suorituskyvyn 28 tehtävässä 29:stä tehtävästä, jotka sisältävät kysymyksiin vastaustehtävät, sulkemis- ja virkkeen täydennystehtävät, kontekstin luetun ymmärtämistehtävät, terveen järjen päättelytehtävät, SuperGLUE-tehtävät ja lisää. PalMin suorituskyky BIG-penkkitehtävissä osoitti, että se pystyi erottamaan syyn ja seurauksen sekä ymmärtämään käsitteellisiä yhdistelmiä sopivissa yhteyksissä.
    • perustelut. Kahdeksan otoksen kehotuksella PaLM ratkaisee 8 % ongelmista GSM58K:ssa, joka on tuhansien haastavien alakoulutason matemaattisten kysymysten vertailukohta, ylittäen GPT-8 55B -mallin hienosäädöllä saavutetun aiemman 3 prosentin huippupisteen. PaLM osoittaa myös kyvyn tuottaa eksplisiittisiä selityksiä tilanteissa, jotka vaativat monivaiheisen loogisen päättelyn, maailman tuntemuksen ja syvän kielen ymmärtämisen monimutkaisen yhdistelmän.
    • Koodin luonti. PaLM toimii samalla tasolla hienosäädetyn Codex 12B:n kanssa samalla, kun se käyttää 50 kertaa vähemmän Python-koodia koulutukseen, mikä vahvistaa, että suuret kielimallit siirtävät oppimista sekä muista ohjelmointikielistä että luonnollisen kielen datasta tehokkaammin.

Mistä saa lisätietoa tästä tutkimuksesta?

Mistä saat käyttöönottokoodin?

  • PaLM-tutkimuspaperin tietyn Transformer-arkkitehtuurin epävirallinen PyTorch-toteutus on saatavilla osoitteessa GitHub. Se ei skaalaudu, ja se julkaistaan ​​vain koulutustarkoituksiin. 

4. DeepMindin Flamingo

Yhteenveto 

Flamingo on visuaalisten kielimallien (VLM) huippuluokan perhe, joka on koulutettu laajamittaisiin multimodaalisiin verkkokorpoihin, joissa on tekstiä ja kuvia. Tämän koulutuksen avulla mallit voivat mukautua uusiin tehtäviin käyttämällä minimaalisia huomautettuja esimerkkejä, jotka annetaan kehotteena. Flamingo sisältää tärkeitä arkkitehtonisia edistysaskeleita, jotka on suunniteltu yhdistämään esikoulutettujen vain näkemysten ja vain kielimallien vahvuudet, prosessoimaan vaihtelevasti lomiteltuja visuaalisia ja tekstimuotoisia tietoja ja sovittamaan kuvia tai videoita syötteinä saumattomasti. Mallit osoittavat vaikuttavaa sopeutumiskykyä erilaisiin kuva- ja videotehtäviin, kuten visuaalisiin kysymyksiin vastaamiseen, tekstitystehtäviin ja monivalintatehtäviin visuaalisiin kysymyksiin vastaamiseen, mikä asettaa uusia suorituskykystandardeja käyttämällä tehtäväkohtaisia ​​kehotteita muutaman otoksen oppimisessa.

Mikä on tavoite? 

  • Edistääksesi sitä, että multimodaaliset mallit voivat nopeasti oppia ja suorittaa uusia tehtäviä lyhyiden ohjeiden perusteella:
    • Laajalti käytetty malli, jossa esiopetetaan malli suurelle määrälle valvottua dataa ja hienosäädetään se sitten tiettyä tehtävää varten, vaatii resursseja ja vaatii tuhansia annotoituja datapisteitä sekä huolellisen tehtäväkohtaisen hyperparametrin virityksen. 
    • Nykyiset mallit, jotka käyttävät kontrastiivista objektiivia, mahdollistavat nollasta sopeutumisen uusiin tehtäviin, mutta ne eivät ole avoimempia tehtäviä, kuten tekstitystä tai visuaalista kysymysvastaamista, koska niistä puuttuu kielen luontikyky. 
    • Tämän tutkimuksen tavoitteena on esitellä uusi malli, joka ratkaisee tehokkaasti nämä ongelmat ja osoittaa erinomaisen suorituskyvyn vähän dataa käyttävissä järjestelmissä.

Miten ongelmaa lähestytään?

  • DeepMind esitteli Flamingon, VLM:t, jotka on suunniteltu muutamaan otteeseen oppimiseen erilaisissa avoimessa näkemys- ja kielitehtävissä, käyttämällä vain muutamia syöttö-/tulostusesimerkkejä.
  • Flamingo-mallit ovat visuaalisesti käsiteltyjä autoregressiivisiä tekstin luontimalleja, jotka voivat käsitellä kuviin ja/tai videoihin sekoitettuja tekstitunnisteita ja luoda tekstiä tulosteena.
  • Flamingon arkkitehtuuri sisältää kaksi toisiaan täydentävää esikoulutettua ja jäädytettyä mallia:
    • Näkömalli, joka pystyy "näkemään" visuaalisia kohtauksia.
    • Suuri kielimalli, jonka tehtävänä on suorittaa peruspäättelyä.
  • Uudet arkkitehtuurikomponentit integroivat nämä mallit tavalla, joka säilyttää niiden laskennallisesti intensiivisen esikoulutuksen aikana saadun tiedon.
  • Lisäksi Flamingo-malleissa on Perceiver-pohjainen arkkitehtuuri, jonka avulla ne voivat syöttää korkearesoluutioisia kuvia tai videoita. Tämä arkkitehtuuri voi luoda kiinteän määrän visuaalisia tunnuksia kuvaa/videota kohden laajasta ja vaihtelevasta visuaalisten syöttöominaisuuksien valikoimasta.

Mitkä ovat tulokset?

  • Tutkimus osoittaa, että samoin kuin LLM:t, jotka ovat hyviä harvoja oppijoita, VLM:t voivat oppia muutamasta syöttö-/tulostusesimerkistä kuvien ja videoiden ymmärtämiseen, kuten luokitteluun, tekstitykseen tai kysymyksiin vastaamiseen.
  • Flamingo luo uuden mittapuun muutaman otoksen oppimisessa osoittaen ylivoimaista suorituskykyä laajassa valikoimassa 16 multimodaalista kielen ja kuvan/videon ymmärtämistehtävää.
  • Kuudessa näistä 6 tehtävästä Flamingo ylittää hienosäädetyn tekniikan suorituskyvyn, vaikka se käyttää vain 16 tehtäväkohtaista esimerkkiä – noin 32 kertaa vähemmän tehtäväkohtaista harjoitustietoa kuin nykyisissä huippusuoritusmalleissa.
Flamingo-näön kielimalli

Mistä saa lisätietoa tästä tutkimuksesta?

Mistä saat käyttöönottokoodin?

  • DeepMind ei julkaissut Flamingon virallista toteutusta. 
  • Saatat löytää käyttöön otetun lähestymistavan avoimen lähdekoodin toteutuksen OpenFlamingo Github Repo.
  • Vaihtoehtoinen PyTorch-toteutus on saatavilla tätä.

5. Salesforcen BLIP-2

Yhteenveto 

BLIP-2 on tehokas ja yleinen esikoulutuskehys visio- ja kielimalleille, jotka on suunniteltu kiertämään suuren mittakaavan mallien esikoulutuksen yhä kalliimpia kustannuksia. BLIP-2 hyödyntää valmiita jäädytettyjä esiopetettuja kuvakoodareita ja jäädytettyjä suuria kielimalleja vision-kielen esikoulutuksen käynnistämiseksi, ja se sisältää kevyen kyselymuuntajan, joka on esikoulutettu kahdessa vaiheessa. Ensimmäinen vaihe käynnistää visio-kielen esitysoppimisen jäädytetystä kuvakooderista, ja toinen vaihe ajaa visiosta kieleen generatiivista oppimista jäädytetystä kielimallista. Huolimatta siitä, että BLIP-2:ssa on huomattavasti vähemmän koulutettavia parametreja, se ylittää huipputekniikan menetelmät ja ohitti DeepMindin Flamingo80B:n 8.7 % nollakuvassa VQAv2:lla 54 kertaa vähemmän harjoitettavia parametreja. Mallissa on myös lupaavia nollakuvan kuvasta tekstiksi luomisominaisuuksia luonnollisen kielen ohjeita noudattaen.

BLIP-2-kehys
Yleiskatsaus BLIP-2:n kehyksestä

Mikä on tavoite? 

  • Saadaksesi huippuluokan suorituskyvyn visiokielitehtävissä ja samalla pienentämään laskentakustannuksia.

Miten ongelmaa lähestytään?

  • Salesforce-tiimi esitteli uuden visiokielisen esikoulutuskehyksen nimeltä BLIP-2, Bootstrapping Lkieli-Imaagi Puudelleenharjoittelu jäädytetyillä unimodaalisilla malleilla:
    • Esiopetetut unimodaaliset mallit pysyvät jäädytettyinä esikoulutuksen aikana laskeakseen laskentakustannuksia ja välttääkseen katastrofaalisen unohtamisen.
    • Helpottaakseen liikennemuotojen välistä kohdistusta ja kurottavan umpeen valmiiksi koulutettujen näkömallien ja valmiiksi koulutettujen kielimallien välistä kuilua, tiimi ehdottaa kevyttä Querying Transformeria (Q-Former), joka toimii tiedon pullonkaulana jäädytetyn kuvan kooderin ja jäädytetyn kuvan välillä. LLM.
    • Q-former on esikoulutettu uudella kaksivaiheisella strategialla:
      • Ensimmäinen esikoulutusvaihe suorittaa visio-kieli-esitysoppimista. Tämä pakottaa Q-Formerin oppimaan visuaalisen esityksen, joka on olennaisin tekstin kannalta.
      • Toinen esikoulutusvaihe suorittaa visiosta kieleen luovaa oppimista yhdistämällä Q-Formerin lähdön jäädytettyyn LLM:ään. Q-Former on koulutettu siten, että LLM voi tulkita sen visuaalisen esityksen.

Mitkä ovat tulokset?

  • BLIP-2 tarjoaa poikkeuksellisia, huippuluokan tuloksia erilaisissa visiokielitehtävissä, mukaan lukien visuaaliset kysymyksiin vastaaminen, kuvien tekstitykset ja kuvatekstin haku.
    • Se esimerkiksi ylittää Flamingon 8.7 prosentilla nollakuvan VQAv2:lla.
  • Lisäksi tämä erinomainen suorituskyky saavutetaan huomattavasti suuremmalla tietokoneen tehokkuudella:
    • BLIP-2 ylittää Flamingo-80B:n, vaikka se käyttää 54 kertaa vähemmän harjoitettavia parametreja. 
  • BLIP-2 pystyy luomaan nollasta kuvan tekstiksi vastauksena luonnollisen kielen ohjeisiin, mikä tasoittaa tietä muun muassa visuaalisen tiedon päättelyn ja visuaalisen keskustelun taitojen kehittämiseen.
  • Lopuksi on tärkeää huomata, että BLIP-2 on monipuolinen lähestymistapa, joka voi hyödyntää kehittyneempiä unimodaalisia malleja parantaakseen entisestään visiokielen esiopetuksen suorituskykyä.
BLIP-2 tulokset
BLIP-2 tulokset

Mistä saa lisätietoa tästä tutkimuksesta?

Mistä saat käyttöönottokoodin?

Virallinen BLIP-2-toteutus on saatavilla osoitteessa GitHub.

6. LLaMA, Meta AI

Yhteenveto 

Meta AI -tiimi väittää, että pienempiä malleja, jotka on koulutettu useammille tokeneille, on helpompi kouluttaa uudelleen ja hienosäätää tiettyjä tuotesovelluksia varten. Siksi he esittelevät Laama (Large Lakieli Model Meta AI), kokoelma peruskielimalleja, joiden parametrit ovat 7B - 65B. LLaMA 33B ja 65B koulutettiin 1.4 biljoonalla rahakkeella, kun taas pienin malli, LLaMA 7B, opetettiin yhdellä biljoonalla rahakkeella. He käyttivät yksinomaan julkisesti saatavilla olevia tietojoukkoja ilman, että he ovat riippuvaisia ​​omistusoikeudellisesta tai rajoitetusta tiedosta. Tiimi otti käyttöön myös tärkeitä arkkitehtonisia parannuksia ja harjoitusnopeuden optimointitekniikoita. Näin ollen LLaMA-13B ylitti GPT-3:n, koska se oli yli 10 kertaa pienempi, ja LLaMA-65B osoitti kilpailukykyistä suorituskykyä PaLM-540B:n kanssa.

Mikä on tavoite? 

  • Havainnollistaa suorituskykyisten mallien koulutuksen toteutettavuus yksinomaan julkisesti saatavilla olevilla tietojoukoilla turvautumatta omistusoikeuteen tai rajoitettuihin tietolähteisiin.
  • Tarjota tutkimusyhteisölle pienempiä ja tehokkaampia malleja ja siten mahdollistaa isojen kielimallien tutkiminen niille, joilla ei ole suuria infrastruktuurimääriä.

Miten ongelmaa lähestytään?

  • LLaMA-mallin kouluttamiseen tutkijat käyttivät vain julkisesti saatavilla olevaa ja avoimen lähteen kanssa yhteensopivaa dataa.
  • He ovat myös ottaneet käyttöön muutamia parannuksia vakiomuuntaja-arkkitehtuuriin:
    • GPT-3-metodologiaa ottamalla käyttöön koulutuksen vakautta parannettiin normalisoimalla kunkin muuntajan alakerroksen sisääntulo lähdön normalisoinnin sijaan.
    • PaLM-mallien inspiroimana tutkijat korvasivat ReLU-epälineaarisuuden SwiGLU-aktivointitoiminnolla suorituskyvyn parantamiseksi.
    • Innoittamana Su et al (2021), ne eliminoivat absoluuttiset paikannusupotukset ja sisällyttivät sen sijaan pyörivät asennon upotukset (RoPE) verkon jokaiseen kerrokseen.
  • Lopuksi Meta AI -tiimi paransi mallinsa harjoitusnopeutta seuraavasti:
    • Tehokkaan kausaalisen monen pään huomion toteuttamisen käyttäminen olemalla tallentamatta huomiopainoja tai laskematta peitettyjä avain-/kyselypisteitä.
    • Tarkistuspisteiden käyttäminen minimoimaan uudelleen lasketut aktivaatiot taaksepäin siirtymisen aikana.
    • Päällekkäinen aktivointien laskeminen ja GPU:iden välinen tiedonsiirto verkossa (all_reduce-toiminnon vuoksi).

Mitkä ovat tulokset?

  • LLaMA-13B ohittaa GPT-3:n, vaikka se on yli 10 kertaa pienempi, kun taas LLaMA-65B pitää paikkansa PaLM-540B:tä vastaan.

Mistä saa lisätietoa tästä tutkimuksesta?

Mistä saat käyttöönottokoodin?

  • Meta AI tarjoaa pääsyn LLaMA:han akateemisille tutkijoille, hallitukseen, kansalaisyhteiskuntaan, akateemisiin instituutioihin ja maailmanlaajuisiin teollisuuden tutkimuslaboratorioihin liittyville henkilöille tapauskohtaisen arvioinnin perusteella. Jos haluat hakea, siirry seuraavaan GitHub-arkisto.

7. OpenAI:n GPT-4

Yhteenveto 

GPT-4 on laajamittainen, multimodaalinen malli, joka hyväksyy kuva- ja tekstisyötteitä ja tuottaa tekstiä. Kilpailu- ja turvallisuussyistä johtuen mallin arkkitehtuurista ja koulutuksesta ei kerrota yksityiskohtaisia ​​tietoja. Suorituskyvyn suhteen GPT-4 ylittää aiemmat kielimallit perinteisillä vertailuarvoilla ja osoittaa merkittäviä parannuksia käyttäjän tarkoituksen ymmärtämisessä ja turvallisuusominaisuuksissa. Malli saavuttaa myös ihmistason suorituskyvyn erilaisissa kokeissa, mukaan lukien 10 %:n huippupisteet simuloidussa Uniform Bar Examinationissa.

Mikä on tavoite? 

  • Kehittää laajamittainen, multimodaalinen malli, joka hyväksyy kuva- ja tekstisyötteitä ja tuottaa tekstitulosteita. 
  • Kehittää infrastruktuuria ja optimointimenetelmiä, jotka käyttäytyvät ennustettavasti monilla eri mittakaavoilla.

Miten ongelmaa lähestytään?

  • Kilpailutilanteen ja turvallisuuden vuoksi OpenAI päätti jättää tiedot arkkitehtuurista, mallin koosta, laitteistosta, koulutuslaskennasta, tietojoukon rakentamisesta ja koulutusmenetelmistä.
  • He paljastavat, että:
    • GPT-4 on muuntajapohjainen malli, joka on valmiiksi koulutettu ennustamaan asiakirjan seuraava merkki.
    • Se käyttää julkisesti saatavilla olevia tietoja ja kolmannen osapuolen lisensoituja tietoja.
    • Malli hienosäädettiin käyttämällä RLHF (Reforcement Learning from Human Feedback) avulla.
  • Vahvistamattomat tiedot viittaavat siihen, että GPT-4 ei ole yksittäinen tiheä malli, kuten edeltäjänsä, vaan kahdeksan erillisen mallin koalitio, joista jokainen sisältää huikeat 220 miljardia parametria.
GPT-4 suorituskyky

Mitkä ovat tulokset?

  • GPT-4 saavuttaa ihmistason suorituskyvyn useimmissa ammatillisissa ja akateemisissa kokeissa, erityisesti 10 % parhaan pistemäärän joukossa simuloidussa Uniform Bar Examinationissa.
  • Esiopetettu GPT-4-perusmalli ylittää olemassa olevat kielimallit ja aikaisemmat huipputekniikan järjestelmät perinteisillä NLP-vertailuarvoilla ilman vertailukohtaista muotoilua tai lisäharjoitusprotokollia.
  • GPT-4 osoittaa huomattavasti parannusta käyttäjien aikomusten seuraamisessa, sillä sen vastaukset ovat GPT-3.5:n vastauksiin nähden paremmat 70.2 %:ssa ChatGPT:n ja OpenAI-sovellusliittymän 5,214 XNUMX kehotuksesta.
  • GPT-4:n turvallisuusominaisuudet ovat parantuneet merkittävästi verrattuna GPT-3.5:een: kiellettyihin sisältöpyyntöihin vastaaminen on vähentynyt 82 % ja arkaluonteisia pyyntöjä koskevien käytäntöjen noudattaminen (esim. lääkärin neuvot ja itsensä vahingoittaminen) on lisääntynyt 29 %.

Mistä saa lisätietoa tästä tutkimuksesta?

Mistä saat käyttöönottokoodin?

  • GPT-4:n koodin käyttöönotto ei ole käytettävissä.

Suurten (vision) kielimallien todelliset sovellukset

Viime vuosien merkittävimmät tekoälytutkimuksen läpimurrot tulevat suurista tekoälymalleista, jotka on koulutettu valtaviin tietokokonaisuuksiin. Nämä mallit osoittavat vaikuttavaa suorituskykyä, ja on kiehtovaa ajatella, kuinka tekoäly voi mullistaa kokonaisia ​​toimialoja, kuten asiakaspalvelua, markkinointia, sähköistä kaupankäyntiä, terveydenhuoltoa, ohjelmistokehitystä, journalismia ja monia muita.

Suurissa kielimalleissa on lukuisia tosielämän sovelluksia. GPT-4 listaa seuraavat:

  • Luonnollisen kielen ymmärtäminen ja luominen chatboteille ja virtuaalisille avustajille.
  • Konekäännös kielten välillä.
  • Yhteenveto artikkeleista, raporteista tai muista tekstiasiakirjoista.
  • Tunneanalyysi markkinatutkimukseen tai sosiaalisen median seurantaan.
  • Sisällön luominen markkinointiin, sosiaaliseen mediaan tai luovaan kirjoittamiseen.
  • Kysymys-vastausjärjestelmät asiakastukeen tai tietokantoihin.
  • Tekstin luokittelu roskapostin suodatusta, aiheiden luokittelua tai asiakirjojen järjestämistä varten.
  • Henkilökohtaiset kieltenoppimis- ja tutorointityökalut.
  • Apu koodin luomiseen ja ohjelmistokehitykseen.
  • Lääketieteellinen, oikeudellinen ja tekninen asiakirjojen analysointi ja apu.
  • Esteettömyystyökalut vammaisille henkilöille, kuten tekstistä puheeksi ja puheesta tekstiksi muuntaminen.
  • Puheentunnistus- ja transkriptiopalvelut.

Jos lisäämme visuaalisen osan, mahdollisten sovellusten alueet laajenevat entisestään:

On erittäin jännittävää seurata viimeaikaisia ​​tekoälyn läpimurtoja ja miettiä niiden mahdollisia todellisia sovelluksia. Ennen näiden mallien käyttöönottoa tosielämässä meidän on kuitenkin otettava huomioon vastaavat riskit ja rajoitukset, jotka ovat valitettavasti melko merkittäviä.

Riskit ja rajoitukset

Jos kysyt GPT-4:ltä sen riskejä ja rajoituksia, se tarjoaa sinulle todennäköisesti pitkän luettelon asiaankuuluvista huolenaiheista. Suodatettuani tämän luettelon ja lisännyt joitain muita huomioita, olen päätynyt seuraaviin tärkeimpiin riskeihin ja rajoituksiin, joita nykyaikaisilla suurilla kielimalleilla on:

  1. Erottelu ja syrjintä: Nämä mallit oppivat valtavasta tekstidatamääristä, jotka sisältävät usein harhaa ja syrjivää sisältöä. Tämän seurauksena luodut tuotokset voivat vahingossa säilyttää stereotypioita, loukkaavaa kielenkäyttöä ja syrjintää, joka perustuu tekijöihin, kuten sukupuoleen, rotuun tai uskontoon.
  2. väärät tiedot: Suuret kielimallit voivat tuottaa sisältöä, joka on virheellistä, harhaanjohtavaa tai vanhentunutta. Vaikka mallit on koulutettu useista eri lähteistä, ne eivät välttämättä aina tarjoa tarkimpia tai ajantasaisimpia tietoja. Usein näin tapahtuu, koska malli priorisoi tulosteiden luomisen, jotka ovat kieliopillisesti oikeita tai näyttävät yhtenäisiltä, ​​vaikka ne olisivat harhaanjohtavia.
  3. Ymmärtämisen puute: Vaikka nämä mallit näyttävät ymmärtävän ihmisten kieltä, ne toimivat ensisijaisesti tunnistamalla malleja ja tilastollisia assosiaatioita koulutustiedoista. Heillä ei ole syvällistä ymmärrystä tuottamasta sisällöstä, mikä voi joskus johtaa järjettömiin tai merkityksettömiin tuloksiin.
  4. Sopimaton sisältö: Kielimallit voivat joskus tuottaa loukkaavaa, haitallista tai sopimatonta sisältöä. Vaikka tällaista sisältöä pyritään minimoimaan, sitä voi silti esiintyä harjoitustietojen luonteen ja mallien kyvyttömyyden erottaa kontekstia tai käyttäjän tarkoitusta.

Yhteenveto

Suuret kielimallit ovat epäilemättä mullistaneet luonnollisen kielen käsittelyn ja osoittaneet valtavan potentiaalin lisätä tuottavuutta eri rooleissa ja toimialoilla. Heidän kykynsä tuottaa ihmisen kaltaista tekstiä, automatisoida arkipäiväisiä tehtäviä ja auttaa luovissa ja analyyttisissa prosesseissa on tehnyt niistä korvaamattomia työkaluja nykypäivän nopeatempoisessa, teknologiavetoisessa maailmassa.

On kuitenkin erittäin tärkeää tunnustaa ja ymmärtää näihin tehokkaisiin malleihin liittyvät rajoitukset ja riskit. Ongelmia, kuten harhaa, väärää tietoa ja haitallisen käytön mahdollisuutta, ei voida jättää huomiotta. Kun jatkamme näiden tekoälyyn perustuvien teknologioiden integroimista jokapäiväiseen elämäämme, on tärkeää löytää tasapaino niiden kykyjen hyödyntämisen ja ihmisen valvonnan välillä, erityisesti herkissä ja riskialttiissa tilanteissa.

Jos onnistumme ottamaan käyttöön generatiivisia tekoälytekniikoita vastuullisesti, tasoitamme tietä tulevaisuudelle, jossa tekoäly ja ihmisten asiantuntemus toimivat yhdessä edistääkseen innovaatioita ja luodakseen paremman maailman kaikille.

Nautitko tästä artikkelista? Tilaa lisää AI-tutkimuspäivityksiä.

Ilmoitamme sinulle, kun julkaisemme lisää tämänkaltaisia ​​yhteenvetoartikkeleita.

Aikaleima:

Lisää aiheesta TOPBOTIT