De krachtigste 7 taal- (LLM) en visietaalmodellen (VLM) transformeren AI in 2023

De krachtigste 7 taal- (LLM) en visietaalmodellen (VLM) transformeren AI in 2023

Bronknooppunt: 2757531

BLIP-2, visietaalmodellen

In het snel evoluerende gebied van kunstmatige intelligentie is natuurlijke taalverwerking een aandachtspunt geworden voor zowel onderzoekers als ontwikkelaars. Voortbouwend op de fundamenten van Transformer-architectuur en BERT's bidirectionele upgrade, zijn er de afgelopen jaren verschillende baanbrekende taalmodellen ontstaan, die de grenzen verleggen van wat machines kunnen begrijpen en genereren.

In dit artikel gaan we dieper in op de nieuwste ontwikkelingen in de wereld van grootschalige taalmodellen, waarbij we de verbeteringen onderzoeken die door elk model zijn geïntroduceerd, hun mogelijkheden en mogelijke toepassingen. We zullen ook kijken naar de Visual Language Models (VLM's) die zijn getraind om niet alleen tekstuele maar ook visuele gegevens te verwerken.

Als je wilt overslaan, zijn hier de taalmodellen die we hebben gebruikt:

  1. GPT-3 door OpenAI
  2. LaMDA van Google
  3. PaLM van Google
  4. Flamingo van DeepMind
  5. BLIP-2 door Salesforce
  6. LLaMA door Meta AI
  7. GPT-4 door OpenAI

Als deze diepgaande educatieve inhoud nuttig voor je is, kan dat abonneer u op onze AI-research mailinglijst om gewaarschuwd te worden wanneer we nieuw materiaal uitbrengen. 

De belangrijkste grote taalmodellen (LLM's) en beeldtaalmodellen (VLM's) in 2023

1. GPT-3 door OpenAI

Samengevat 

Het OpenAI-team introduceerde GPT-3 als alternatief voor een gelabelde dataset voor elke nieuwe taaltaak. Ze suggereerden dat het opschalen van taalmodellen de taakonafhankelijke prestatie van weinig mensen kan verbeteren. Om deze suggestie te testen, trainden ze een autoregressief taalmodel met 175B-parameters, genaamd GPT-3, en evalueerde de prestaties ervan op meer dan twee dozijn NLP-taken. De evaluatie onder few-shot learning, one-shot learning en zero-shot learning toonde aan dat GPT-3 veelbelovende resultaten boekte en soms zelfs beter presteerde dan de state-of-the-art resultaten die werden behaald door verfijnde modellen. 

Wat is het doel? 

  • Een alternatieve oplossing voorstellen voor het bestaande probleem, wanneer een gelabelde dataset nodig is voor elke nieuwe taaltaak.

Hoe wordt het probleem benaderd?

  • De onderzoekers stelden voor om taalmodellen op te schalen om de taakonafhankelijke prestatie van weinig mensen te verbeteren. 
  • De GPT-3 model gebruikt hetzelfde model en dezelfde architectuur als GPT-2, inclusief gewijzigde initialisatie, pre-normalisatie en omkeerbare tokenisatie.
  • In tegenstelling tot GPT-2 gebruikt het echter afwisselend dichte en lokaal gestreepte spaarzame aandachtspatronen in de lagen van de transformator, zoals in de Schaarse transformator.
GPT-3

Wat zijn de resultaten?

  • Het GPT-3-model zonder afstemming behaalt veelbelovende resultaten bij een aantal NLP-taken en overtreft soms zelfs de modernste modellen die voor die specifieke taak zijn afgesteld:
    • Op de CoQA benchmark, 81.5 F1 in de zero-shot-instelling, 84.0 F1 in de one-shot-instelling en 85.0 F1 in de few-shot-instelling, vergeleken met de 90.7 F1-score die werd behaald door nauwkeurig afgestelde SOTA.
    • Op de Trivia QA benchmark, 64.3% nauwkeurigheid in de zero-shot-instelling, 68.0% in de one-shot-instelling en 71.2% in de few-shot-instelling, waarmee de state of the art (68%) met 3.2% wordt overtroffen.
    • Op de LAMBADA dataset, 76.2% nauwkeurigheid in de zero-shot-instelling, 72.5% in de one-shot-instelling en 86.4% in de few-shot-instelling, waarmee de state of the art (68%) met 18% wordt overtroffen.
  • De nieuwsartikelen gegenereerd door het 175B-parameter GPT-3-model zijn volgens menselijke evaluaties moeilijk te onderscheiden van echte artikelen (met een nauwkeurigheid van amper boven het kansniveau van ~ 52%). 
  • Ondanks de opmerkelijke prestaties van GPT-3, kreeg het gemengde beoordelingen van de AI-gemeenschap:
    • “De GPT-3-hype is veel te veel. Het is indrukwekkend (bedankt voor de mooie complimenten!), Maar het heeft nog steeds ernstige zwakheden en maakt soms heel domme fouten. AI gaat de wereld veranderen, maar GPT-3 is slechts een zeer vroege glimp. We moeten nog veel uitzoeken. " - Sam Altman, CEO en mede-oprichter van OpenAI.
    • "Ik ben geschokt hoe moeilijk het is om tekst over moslims uit GPT-3 te genereren die niets te maken heeft met geweld ... of vermoord worden ..." - Abubakar Abid, CEO en oprichter van Gradio.
    • "Nee. GPT-3 begrijpt fundamenteel de wereld waarover het spreekt niet. Door het corpus verder uit te breiden, kan het een meer geloofwaardige pastiche genereren, maar het fundamentele gebrek aan begrip van de wereld niet verhelpen. Demo's van GPT-4 zullen nog steeds door mensen moeten worden geplukt. " - Gary Marcus, CEO en oprichter van Robust.ai.
    • "Extrapolatie van de spectaculaire prestaties van GPT3 naar de toekomst suggereert dat het antwoord op het leven, het universum en alles slechts 4.398 biljoen parameters is." - Geoffrey Hinton, winnaar van de Turing Award.

Waar vindt u meer informatie over dit onderzoek?

Waar kun je de implementatiecode krijgen?

  • De code zelf is niet beschikbaar, maar sommige datasetstatistieken samen met onvoorwaardelijke, ongefilterde 2048-token-samples van GPT-3 worden vrijgegeven op GitHub.

2. LaMDA door Google

Samengevat 

Languaage Modellen voor Ddialoog Atoepassingen (deMDA) zijn gemaakt door het proces van fijnafstemming van een groep op Transformer gebaseerde neurale taalmodellen die specifiek zijn ontworpen voor dialogen. Deze modellen hebben maximaal 137B parameters en zijn getraind om externe kennisbronnen te gebruiken. LaMDA-ontwikkelaars hadden drie belangrijke doelstellingen voor ogen: kwaliteit, veiligheid en geaardheid. De resultaten toonden aan dat fijnafstemming het mogelijk maakt om de kwaliteitskloof naar menselijk niveau te verkleinen, maar dat de prestaties van het model onder het menselijke niveau bleven met betrekking tot veiligheid en geaardheid. 

Bard van Google, uitgebracht sinds kort als alternatief voor ChatGPT, wordt aangedreven door LaMDA. Ondanks dat Bard vaak wordt bestempeld als vervelend, zou het kunnen worden gezien als een bewijs van de inzet van Google om prioriteit te geven aan veiligheid, zelfs te midden van de intense rivaliteit tussen Google en Microsoft om dominantie te vestigen op het gebied van generatieve AI.

Wat is het doel? 

  • Een model bouwen voor open-domein dialoogtoepassingen, waarbij een dialoogagent in staat is om over elk onderwerp te converseren, waarbij de antwoorden verstandig, specifiek voor de context, gebaseerd op betrouwbare bronnen en ethisch zijn.

Hoe wordt het probleem benaderd?

  • LaMDA is gebouwd op Transformator, een neurale netwerkarchitectuur die Google Research in 2017 heeft uitgevonden en open source heeft gemaakt.
    • Net als andere grote taalmodellen, waaronder BERT en GPT-3, wordt LaMDA getraind op terabytes aan tekstgegevens om te leren hoe woorden zich tot elkaar verhouden en om vervolgens te voorspellen welke woorden waarschijnlijk zullen volgen. 
    • In tegenstelling tot de meeste taalmodellen is LaMDA echter getraind in dialoog om nuances op te pikken die open gesprekken onderscheiden van andere vormen van taal.
  • Het model is ook verfijnd om de gevoeligheid, veiligheid en specificiteit van zijn reacties te verbeteren. Hoewel zinnen als "dat is leuk" en "ik weet het niet" betekenisvol kunnen zijn in veel dialoogscenario's, zullen ze waarschijnlijk niet leiden tot interessante en boeiende gesprekken.
    • De LaMDA-generator genereert eerst verschillende reacties van kandidaten, die allemaal worden gescoord op basis van hoe veilig, verstandig, specifiek en interessant ze zijn. Reacties met lage veiligheidsscores worden eruit gefilterd en vervolgens wordt het best gerangschikte resultaat als reactie geselecteerd.
Voorbeeld van een LaMDA-dialoog

Wat zijn de resultaten?

  • Talrijke experimenten tonen aan dat LaMDA kan deelnemen aan boeiende gesprekken met een open einde over uiteenlopende onderwerpen.
  • Een reeks kwalitatieve evaluaties bevestigde dat de antwoorden van het model over het algemeen verstandig, specifiek, interessant en gebaseerd zijn op betrouwbare externe bronnen, maar dat er nog ruimte voor verbetering is.
  • Ondanks alle vooruitgang die tot nu toe is geboekt, erkennen de auteurs dat het model nog steeds veel beperkingen heeft die kunnen leiden tot het genereren van ongepaste of zelfs schadelijke reacties.

Waar vindt u meer informatie over dit onderzoek?

Waar kun je de implementatiecode krijgen?

  • Een open-source PyTorch-implementatie voor de pre-trainingsarchitectuur van LaMDA is beschikbaar op GitHub.

3. PaLM door Google

Samengevat 

Pahoe dan ook LAnguage Manders (Palm) is een op Transformer gebaseerd taalmodel met 540 miljard parameters. PaLM is getraind op 6144 TPU v4-chips met behulp van Pathways, een nieuw ML-systeem voor efficiënte training over meerdere TPU-pods. Het model demonstreert de voordelen van schaalvergroting bij leren in kleine stappen, het behalen van geavanceerde resultaten op honderden taalbegrip- en generatiebenchmarks. PaLM presteert beter dan verfijnde state-of-the-art modellen op meerstaps redeneringstaken en overtreft de gemiddelde menselijke prestatie op de BIG-bench benchmark.

Wat is het doel? 

  • Om meer inzicht te krijgen in de manier waarop schaalvergroting van grote taalmodellen het leren van kleine groepen beïnvloedt.

Hoe wordt het probleem benaderd?

  • Het belangrijkste idee is om de training van een taalmodel met 540 miljard parameters op te schalen met het Pathways-systeem:
    • Het team gebruikte dataparallellisme op Pod-niveau over twee Cloud TPU v4-pods, terwijl het standaard data- en modelparallellisme binnen elke Pod gebruikte.
    • Ze waren in staat om training op te schalen naar 6144 TPU v4-chips, de grootste op TPU gebaseerde systeemconfiguratie die tot nu toe voor training is gebruikt.
    • Het model behaalde een trainingsefficiëntie van 57.8% hardware-FLOP's-gebruik, wat, zoals de auteurs beweren, de hoogste tot nu toe bereikte trainingsefficiëntie is voor grote taalmodellen op deze schaal. 
  • De trainingsgegevens voor het PaLM-model omvatten een combinatie van Engelse en meertalige datasets met hoogwaardige webdocumenten, boeken, Wikipedia, gesprekken en GitHub-code.
PaLM-model van Google

Wat zijn de resultaten?

  • Talrijke experimenten tonen aan dat de prestaties van het model sterk toenamen naarmate het team opschaalde naar hun grootste model.
  • PaLM 540B behaalde baanbrekende prestaties bij meerdere zeer moeilijke taken:
    • Taal begrijpen en genereren. Het geïntroduceerde model overtrof de kleine prestaties van eerdere grote modellen bij 28 van de 29 taken, waaronder vraag-antwoordtaken, cloze- en zin-voltooiingstaken, in-context begrijpend lezen-taken, gezond verstand-redeneertaken, SuperGLUE-taken en meer. De prestaties van PaLM op BIG-bench-taken toonden aan dat het oorzaak en gevolg kon onderscheiden en conceptuele combinaties in de juiste context kon begrijpen.
    • Redenering. Met 8-shot prompts lost PaLM 58% van de problemen op in GSM8K, een benchmark van duizenden uitdagende wiskundevragen op basisschoolniveau, beter dan de eerdere topscore van 55% behaald door het GPT-3 175B-model te verfijnen. PaLM demonstreert ook het vermogen om expliciete verklaringen te genereren in situaties die een complexe combinatie van meerstaps logische gevolgtrekking, wereldkennis en diepgaand taalbegrip vereisen.
    • Codegeneratie. PaLM presteert op hetzelfde niveau als de verfijnde Codex 12B, terwijl 50 keer minder Python-code wordt gebruikt voor training, wat bevestigt dat grote taalmodellen het leren van zowel andere programmeertalen als natuurlijke taalgegevens effectiever overdragen.

Waar vindt u meer informatie over dit onderzoek?

Waar kun je de implementatiecode krijgen?

  • Een niet-officiële PyTorch-implementatie van de specifieke Transformer-architectuur uit het PaLM-onderzoeksdocument is beschikbaar op GitHub. Het is niet schaalbaar en wordt alleen voor educatieve doeleinden gepubliceerd. 

4. Flamingo van DeepMind

Samengevat 

Flamingo is een geavanceerde familie van Visual Language Models (VLM's), getraind op grootschalige multimodale webcorpora met gemengde tekst en afbeeldingen. Met deze training kunnen de modellen zich aanpassen aan nieuwe taken met behulp van minimale geannoteerde voorbeelden die als prompt worden verstrekt. Flamingo bevat belangrijke architectonische vorderingen die zijn ontworpen om de sterke punten van vooraf getrainde modellen met alleen visie en alleen taal samen te voegen, reeksen van variabel verweven visuele en tekstuele gegevens te verwerken en naadloos afbeeldingen of video's als invoer te accommoderen. De modellen laten een indrukwekkend aanpassingsvermogen zien voor een reeks beeld- en videotaken, zoals visuele vraagbeantwoording, ondertitelingstaken en meerkeuze visuele vraagbeantwoording, waarbij nieuwe prestatienormen worden gesteld met behulp van taakspecifieke prompts in few-shot learning.

Wat is het doel? 

  • Om vooruitgang te boeken om multimodale modellen in staat te stellen snel nieuwe taken te leren en uit te voeren op basis van korte instructies:
    • Het veelgebruikte paradigma van het vooraf trainen van een model op een grote hoeveelheid gecontroleerde gegevens en het vervolgens verfijnen voor de specifieke taak, vergt veel middelen en vereist duizenden geannoteerde gegevenspunten samen met zorgvuldige hyperparameterafstemming per taak. 
    • Huidige modellen die een contrastieve doelstelling gebruiken, maken zero-shot-aanpassing aan nieuwe taken mogelijk, maar schieten tekort bij taken met een meer open einde, zoals ondertiteling of het beantwoorden van visuele vragen, omdat ze geen taalgeneratiemogelijkheden hebben. 
    • Dit onderzoek heeft tot doel een nieuw model te introduceren dat deze problemen effectief aanpakt en superieure prestaties laat zien in low-data-regimes.

Hoe wordt het probleem benaderd?

  • De DeepMind introduceerde Flamingo, VLM's die zijn ontworpen voor het leren van verschillende open-end vision- en taaltaken, waarbij slechts enkele input/output-voorbeelden zijn gebruikt.
  • Flamingo-modellen zijn visueel geconditioneerde autoregressieve modellen voor het genereren van tekst die teksttokens gemengd met afbeeldingen en/of video's kunnen verwerken en tekst als uitvoer kunnen genereren.
  • De architectuur van Flamingo bevat twee complementaire vooraf getrainde en bevroren modellen:
    • Een visiemodel dat visuele scènes kan 'waarnemen'.
    • Een groot taalmodel dat is belast met het uitvoeren van basisredeneringen.
  • Nieuwe architectuurcomponenten integreren deze modellen op een manier die de kennis behoudt die is opgedaan tijdens hun rekenintensieve pre-training.
  • Bovendien hebben Flamingo-modellen een Perceiver-gebaseerde architectuur, waardoor ze afbeeldingen of video's met een hoge resolutie kunnen opnemen. Deze architectuur kan een vast aantal visuele tokens per afbeelding/video genereren uit een breed en variabel scala aan visuele invoerfuncties.

Wat zijn de resultaten?

  • Het onderzoek toont aan dat VLM's, net als LLM's, die goede weinig-shot-leerlingen zijn, kunnen leren van een paar invoer-/uitvoervoorbeelden voor het begrijpen van afbeeldingen en video's, zoals classificatie, ondertiteling of het beantwoorden van vragen.
  • Flamingo vestigt een nieuwe maatstaf op het gebied van leren in kleine groepjes en demonstreert superieure prestaties op een breed scala van 16 multimodale taal- en beeld-/video-begripstaken.
  • Voor 6 van deze 16 taken overtreft Flamingo de prestaties van de verfijnde state-of-the-art, ook al gebruikt het slechts 32 taakspecifieke voorbeelden – ongeveer 1000 keer minder taakspecifieke trainingsgegevens dan de huidige best presterende modellen.
Flamingo visie taalmodel

Waar vindt u meer informatie over dit onderzoek?

Waar kun je de implementatiecode krijgen?

  • DeepMind heeft de officiële implementatie van Flamingo niet vrijgegeven. 
  • Mogelijk vindt u een open source-implementatie van de geïntroduceerde aanpak in de OpenFlamingo Github-opslagplaats.
  • De alternatieve PyTorch-implementatie is beschikbaar hier.

5. BLIP-2 door Salesforce

Samengevat 

BLIP-2 is een efficiënt en generiek pre-trainingsraamwerk voor visie-en-taalmodellen, ontworpen om de steeds duurder wordende pre-training van grootschalige modellen te omzeilen. BLIP-2 maakt gebruik van kant-en-klare bevroren, vooraf getrainde beeldencoders en bevroren grote taalmodellen om pre-training van visie-taal op te starten, met een lichtgewicht Querying Transformer die vooraf in twee fasen is getraind. De eerste fase initieert visie-taalrepresentatie-leren van een bevroren beeld-encoder, en de tweede fase stuwt visie-naar-taal generatief leren voort vanuit een bevroren taalmodel. Ondanks dat het aanzienlijk minder trainbare parameters heeft, presteert BLIP-2 beter dan de modernste methoden en overtreft het DeepMind's Flamingo80B met 8.7% op zero-shot VQAv2 met 54x minder trainbare parameters. Het model vertoont ook veelbelovende zero-shot beeld-naar-tekst generatiemogelijkheden volgens natuurlijke taalinstructies.

BLIP-2-raamwerk
Overzicht van het BLIP-2-raamwerk

Wat is het doel? 

  • Om state-of-the-art prestaties te krijgen bij vision-taaltaken, terwijl de rekenkosten worden verlaagd.

Hoe wordt het probleem benaderd?

  • Het Salesforce-team introduceerde een nieuw pre-trainingsraamwerk in visietaal, genaamd BLIP-2. Bootstrappen Ltaal-Itovenaar Pomscholing met bevroren unimodale modellen:
    • De vooraf getrainde unimodale modellen blijven bevroren tijdens de pre-training om de rekenkosten te verlagen en het probleem van catastrofaal vergeten te voorkomen.
    • Om cross-modale afstemming te vergemakkelijken en de modaliteitskloof tussen vooraf getrainde visiemodellen en vooraf getrainde taalmodellen te overbruggen, stelt het team een ​​lichtgewicht Querying Transformer (Q-Former) voor die fungeert als een informatieknelpunt tussen de bevroren beeld-encoder en de bevroren LLM.
    • Q-former is vooraf getraind met een nieuwe tweetrapsstrategie:
      • De eerste pre-trainingsfase voert het leren van visie-taalrepresentatie uit. Dit dwingt de Q-Former om visuele representatie te leren die het meest relevant is voor de tekst.
      • De tweede pre-trainingsfase voert generatief leren van visie naar taal uit door de uitvoer van de Q-Former te verbinden met een bevroren LLM. De Q-Former is zodanig getraind dat de visuele weergave van de uitvoer door de LLM kan worden geïnterpreteerd.

Wat zijn de resultaten?

  • BLIP-2 levert uitzonderlijke, state-of-the-art resultaten voor een verscheidenheid aan vision-taaltaken, waaronder het beantwoorden van visuele vragen, het onderschrijven van afbeeldingen en het ophalen van afbeeldingen en tekst.
    • Het presteert bijvoorbeeld 8.7% beter dan Flamingo op zero-shot VQAv2.
  • Bovendien worden deze uitstekende prestaties bereikt met een aanzienlijk hogere computerefficiëntie:
    • BLIP-2 presteert beter dan Flamingo-80B terwijl er 54× minder trainbare parameters worden gebruikt. 
  • BLIP-2 heeft de capaciteit om zero-shot beeld-naar-tekst generatie uit te voeren in reactie op instructies in natuurlijke taal, waardoor de weg wordt vrijgemaakt voor het ontwikkelen van vaardigheden zoals onder andere visuele kennis, redenering en visuele conversatie.
  • Ten slotte is het belangrijk op te merken dat BLIP-2 een veelzijdige benadering is die gebruik kan maken van meer geavanceerde unimodale modellen om de prestaties van pre-training voor beeldtaal verder te verbeteren.
BLIP-2 resultaten
BLIP-2 resultaten

Waar vindt u meer informatie over dit onderzoek?

Waar kun je de implementatiecode krijgen?

De officiële BLIP-2-implementatie is beschikbaar op GitHub.

6. LLaMA door Meta AI

Samengevat 

Het Meta AI-team beweert dat kleinere modellen die op meer tokens zijn getraind, gemakkelijker opnieuw te trainen en af ​​te stemmen zijn voor specifieke producttoepassingen. Daarom introduceren ze Lama (Large Languaage Manders Meta AI), een verzameling fundamentele taalmodellen met 7B tot 65B parameters. LLaMA 33B en 65B werden getraind op 1.4 biljoen tokens, terwijl het kleinste model, LLaMA 7B, werd getraind op een biljoen tokens. Ze gebruikten uitsluitend openbaar beschikbare datasets, zonder afhankelijk te zijn van eigendoms- of beperkte gegevens. Het team implementeerde ook belangrijke architecturale verbeteringen en trainde technieken voor snelheidsoptimalisatie. Bijgevolg presteerde LLaMA-13B beter dan GPT-3, dat meer dan 10 keer kleiner was, en presteerde LLaMA-65B competitief met PaLM-540B.

Wat is het doel? 

  • Om de haalbaarheid aan te tonen van het trainen van best presterende modellen uitsluitend op openbaar toegankelijke datasets, zonder te vertrouwen op eigen of beperkte databronnen.
  • Om de onderzoeksgemeenschap te voorzien van kleinere en beter presterende modellen en zo degenen die geen toegang hebben tot grote hoeveelheden infrastructuur in staat te stellen grote taalmodellen te bestuderen.

Hoe wordt het probleem benaderd?

  • Om het LLaMA-model te trainen, gebruikten onderzoekers alleen gegevens die openbaar beschikbaar zijn en compatibel zijn met open sourcing.
  • Ze hebben ook enkele verbeteringen aangebracht in de standaard Transformer-architectuur:
    • Door de GPT-3-methodologie toe te passen, werd de stabiliteit van de training verbeterd door de input voor elke sublaag van de transformator te normaliseren in plaats van de output te normaliseren.
    • Geïnspireerd door de PaLM-modellen hebben de onderzoekers de ReLU-niet-lineariteit vervangen door de SwiGLU-activeringsfunctie om de prestaties te verbeteren.
    • Geïnspireerd door Su et al (2021), elimineerden ze de absolute positionele inbeddingen en in plaats daarvan namen ze roterende positionele inbeddingen (RoPE) op in elke laag van het netwerk.
  • Ten slotte verbeterde het Meta AI-team de trainingssnelheid van hun model door:
    • Gebruikmaken van efficiënte causale multi-head aandachtsimplementatie door geen aandachtsgewichten op te slaan of gemaskeerde sleutel-/queryscores te berekenen.
    • Checkpointing gebruiken om opnieuw berekende activeringen tijdens de achterwaartse pass te minimaliseren.
    • Overlappende berekening van activeringen en de communicatie tussen GPU's via het netwerk (vanwege all_reduce-bewerkingen).

Wat zijn de resultaten?

  • LLaMA-13B overtreft GPT-3 ondanks dat hij meer dan 10 keer kleiner is, terwijl LLaMA-65B zijn mannetje staat tegen PaLM-540B.

Waar vindt u meer informatie over dit onderzoek?

Waar kun je de implementatiecode krijgen?

  • Meta AI biedt toegang tot LLaMA aan academische onderzoekers, personen die banden hebben met de overheid, het maatschappelijk middenveld, academische instellingen en onderzoekslaboratoria van de wereldwijde industrie op basis van individuele casusevaluatie. Ga naar het volgende om te solliciteren GitHub-repository.

7. GPT-4 door OpenAI

Samengevat 

GPT-4 is een grootschalig, multimodaal model dat beeld- en tekstinvoer accepteert en tekstuitvoer genereert. Vanwege concurrentie- en veiligheidsoverwegingen worden specifieke details over de architectuur en training van het model achtergehouden. In termen van prestaties overtreft GPT-4 eerdere taalmodellen op traditionele benchmarks en vertoont aanzienlijke verbeteringen in het begrip van gebruikersintenties en veiligheidseigenschappen. Het model behaalt ook prestaties op menselijk niveau op verschillende examens, waaronder een topscore van 10% op een gesimuleerd Uniform Bar Examination.

Wat is het doel? 

  • Een grootschalig, multimodaal model ontwikkelen dat beeld- en tekstinvoer kan accepteren en tekstuitvoer kan produceren. 
  • Het ontwikkelen van infrastructuur- en optimalisatiemethoden die zich voorspelbaar gedragen op een breed scala van schaalniveaus.

Hoe wordt het probleem benaderd?

  • Vanwege het concurrentielandschap en de veiligheidsimplicaties heeft OpenAI besloten om details over architectuur, modelgrootte, hardware, trainingscomputers, datasetconstructie en trainingsmethoden achter te houden.
  • Ze onthullen dat:
    • GPT-4 is een op Transformer gebaseerd model, vooraf getraind om het volgende token in een document te voorspellen.
    • Het maakt gebruik van openbaar beschikbare gegevens en gelicentieerde gegevens van derden.
    • Het model is verfijnd met Reinforcement Learning from Human Feedback (RLHF).
  • Onbevestigde informatie suggereert dat GPT-4 geen enkel compact model is zoals zijn voorgangers, maar een krachtige coalitie van acht afzonderlijke modellen, elk met maar liefst 220 miljard parameters.
GPT-4-prestaties

Wat zijn de resultaten?

  • GPT-4 behaalt prestaties op menselijk niveau op de meeste professionele en academische examens, met name scoren in de top 10% op een gesimuleerd Uniform Bar Examination.
  • Het vooraf getrainde GPT-4-basismodel presteert beter dan bestaande taalmodellen en eerdere state-of-the-art systemen op traditionele NLP-benchmarks, zonder benchmark-specifieke crafting of aanvullende trainingsprotocollen.
  • GPT-4 laat een substantiële verbetering zien in het volgen van de intentie van de gebruiker, waarbij de reacties de voorkeur hebben boven de reacties van GPT-3.5 in 70.2% van de 5,214 prompts van ChatGPT en de OpenAI API.
  • De veiligheidseigenschappen van GPT-4 zijn aanzienlijk verbeterd in vergelijking met GPT-3.5, met een afname van 82% in het reageren op verzoeken om niet-toegestane inhoud en een toename van 29% in het naleven van beleid voor gevoelige verzoeken (bijv. medisch advies en zelfbeschadiging).

Waar vindt u meer informatie over dit onderzoek?

Waar kun je de implementatiecode krijgen?

  • Code-implementatie van GPT-4 is niet beschikbaar.

Real-world toepassingen van grote (visie) taalmodellen

De belangrijkste doorbraken in AI-onderzoek van de afgelopen jaren zijn afkomstig van grote AI-modellen die zijn getraind op enorme datasets. Deze modellen laten indrukwekkende prestaties zien en het is fascinerend om te bedenken hoe AI een revolutie teweeg kan brengen in hele sectoren, zoals klantenservice, marketing, e-commerce, gezondheidszorg, softwareontwikkeling, journalistiek en vele andere.

Grote taalmodellen hebben tal van real-world toepassingen. GPT-4 somt het volgende op:

  • Begrip en generatie van natuurlijke taal voor chatbots en virtuele assistenten.
  • Machinevertaling tussen talen.
  • Samenvatting van artikelen, rapporten of andere tekstdocumenten.
  • Sentimentanalyse voor marktonderzoek of monitoring van sociale media.
  • Contentgeneratie voor marketing, sociale media of creatief schrijven.
  • Vraag-antwoordsystemen voor klantenondersteuning of kennisbanken.
  • Tekstclassificatie voor spamfiltering, onderwerpcategorisering of documentorganisatie.
  • Gepersonaliseerde hulpmiddelen voor het leren van talen en bijles.
  • Hulp bij het genereren van code en softwareontwikkeling.
  • Analyse en assistentie van medische, juridische en technische documenten.
  • Toegankelijkheidstools voor personen met een handicap, zoals tekst-naar-spraak en spraak-naar-tekst conversie.
  • Spraakherkenning en transcriptiediensten.

Als we een visueel onderdeel toevoegen, breiden de gebieden van mogelijke toepassingen zich verder uit:

Het is heel spannend om de recente AI-doorbraken te volgen en na te denken over hun mogelijke toepassingen in de echte wereld. Voordat we deze modellen echter in het echte leven kunnen inzetten, moeten we de bijbehorende risico's en beperkingen aanpakken, die helaas vrij aanzienlijk zijn.

Risico's en beperkingen

Als u GPT-4 vraagt ​​naar de risico's en beperkingen, krijgt u waarschijnlijk een lange lijst met relevante zorgen. Na het doorzoeken van deze lijst en het toevoegen van enkele aanvullende overwegingen, heb ik de volgende reeks belangrijke risico's en beperkingen van moderne grote taalmodellen gevonden:

  1. Vooroordelen en discriminatie: Deze modellen leren van enorme hoeveelheden tekstgegevens, die vaak vooroordelen en discriminerende inhoud bevatten. Als gevolg hiervan kunnen de gegenereerde resultaten onbedoeld stereotypen, aanstootgevend taalgebruik en discriminatie op basis van factoren als geslacht, ras of religie in stand houden.
  2. Desinformatie: Grote taalmodellen kunnen inhoud genereren die feitelijk onjuist, misleidend of verouderd is. Hoewel de modellen zijn getraind op een breed scala aan bronnen, bieden ze niet altijd de meest nauwkeurige of actuele informatie. Dit gebeurt vaak omdat het model prioriteit geeft aan het genereren van output die grammaticaal correct is of coherent lijkt, zelfs als ze misleidend is.
  3. Gebrek aan begrip: Hoewel deze modellen menselijke taal lijken te begrijpen, werken ze voornamelijk door patronen en statistische associaties in de trainingsgegevens te identificeren. Ze hebben geen goed begrip van de inhoud die ze genereren, wat soms kan resulteren in onzinnige of irrelevante resultaten.
  4. Ongepaste inhoud: Taalmodellen kunnen soms inhoud genereren die aanstootgevend, schadelijk of ongepast is. Hoewel er moeite wordt gedaan om dergelijke inhoud te minimaliseren, kan het nog steeds voorkomen vanwege de aard van de trainingsgegevens en het onvermogen van de modellen om context of gebruikersintentie te onderscheiden.

Conclusie

Grote taalmodellen hebben ongetwijfeld een revolutie teweeggebracht op het gebied van natuurlijke taalverwerking en hebben een enorm potentieel aangetoond voor het verbeteren van de productiviteit in verschillende rollen en sectoren. Hun vermogen om mensachtige tekst te genereren, alledaagse taken te automatiseren en hulp te bieden bij creatieve en analytische processen, heeft hen tot onmisbare hulpmiddelen gemaakt in de snelle, door technologie gedreven wereld van vandaag.

Het is echter cruciaal om de beperkingen en risico's van deze krachtige modellen te erkennen en te begrijpen. Kwesties zoals vooringenomenheid, verkeerde informatie en de mogelijkheid van kwaadwillig gebruik kunnen niet worden genegeerd. Terwijl we doorgaan met het integreren van deze AI-gestuurde technologieën in ons dagelijks leven, is het essentieel om een ​​evenwicht te vinden tussen het benutten van hun capaciteiten en het waarborgen van menselijk toezicht, met name in gevoelige en risicovolle situaties.

Als we erin slagen generatieve AI-technologieën op verantwoorde wijze toe te passen, maken we de weg vrij voor een toekomst waarin kunstmatige intelligentie en menselijke expertise samenwerken om innovatie te stimuleren en een betere wereld voor iedereen te creëren.

Geniet van dit artikel? Meld u aan voor meer AI-onderzoeksupdates.

We laten het u weten wanneer we meer samenvattende artikelen zoals deze vrijgeven.

Tijdstempel:

Meer van TOPBOTS