Les 7 modèles de langage (LLM) et de langage visuel (VLM) les plus puissants transforment l'IA en 2023

Les 7 modèles de langage (LLM) et de langage visuel (VLM) les plus puissants transforment l'IA en 2023

Nœud source: 2757531

BLIP-2, modèles de langage visuel

Dans le domaine en évolution rapide de l'intelligence artificielle, le traitement du langage naturel est devenu un point central pour les chercheurs et les développeurs. Bâtir sur les fondations de Architecture de transformateur ainsi que le Mise à niveau bidirectionnelle du BERT, plusieurs modèles de langage révolutionnaires ont émergé ces dernières années, repoussant les limites de ce que les machines peuvent comprendre et générer.

Dans cet article, nous allons nous plonger dans les dernières avancées dans le monde des modèles de langage à grande échelle, en explorant les améliorations introduites par chaque modèle, leurs capacités et leurs applications potentielles. Nous examinerons également les modèles de langage visuel (VLM) qui sont formés pour traiter non seulement des données textuelles mais également visuelles.

Si vous souhaitez sauter un peu, voici les modèles de langage que nous avons présentés :

  1. GPT-3 par OpenAI
  2. LaMDA par Google
  3. Palm de Google
  4. Flamant rose par DeepMind
  5. BLIP-2 par Salesforce
  6. LLaMA par Meta AI
  7. GPT-4 par OpenAI

Si ce contenu éducatif approfondi vous est utile, vous pouvez abonnez-vous à notre liste de diffusion de recherche sur l'IA d'être alerté lorsque nous publierons du nouveau matériel. 

Les modèles de langage volumineux (LLM) et les modèles de langage visuel (VLM) les plus importants en 2023

1. GPT-3 par OpenAI

Résumé 

L'équipe OpenAI a présenté GPT-3 comme une alternative à la création d'un ensemble de données étiqueté pour chaque nouvelle tâche linguistique. Ils ont suggéré que la mise à l'échelle des modèles de langage peut améliorer les performances de quelques prises de vue indépendantes des tâches. Pour tester cette suggestion, ils ont formé un modèle de langage autorégressif à 175 B paramètres, appelé GPT-3, et évalué ses performances sur plus de deux douzaines de tâches NLP. L'évaluation dans le cadre de l'apprentissage à quelques coups, de l'apprentissage à un coup et de l'apprentissage à zéro coup a démontré que GPT-3 a obtenu des résultats prometteurs et a même parfois surpassé les résultats de pointe obtenus par des modèles affinés. 

Quel est le but? 

  • Suggérer une solution alternative au problème existant, lorsqu'un jeu de données étiqueté est nécessaire pour chaque nouvelle tâche linguistique.

Comment le problème est-il abordé ?

  • Les chercheurs ont suggéré de mettre à l'échelle les modèles de langage pour améliorer les performances de quelques prises de vue indépendantes des tâches. 
  • La GPT-3 utilise le même modèle et la même architecture que GPT-2, y compris l'initialisation modifiée, la pré-normalisation et la tokenisation réversible.
  • Cependant, contrairement à GPT-2, il utilise des motifs d'attention clairsemés alternés denses et localement bagués dans les couches du transformateur, comme dans le Transformateur clairsemé.
GPT-3

Quels sont les résultats?

  • Le modèle GPT-3 sans réglage fin obtient des résultats prometteurs sur un certain nombre de tâches PNL et surpasse même parfois les modèles de pointe qui ont été affinés pour cette tâche spécifique:
    • Sur le CoQA référence, 81.5 F1 dans le réglage zéro coup, 84.0 F1 dans le réglage one-shot et 85.0 F1 dans le réglage quelques coups, par rapport au score de 90.7 F1 obtenu par un SOTA affiné.
    • Sur le QuizQA référence, 64.3% de précision dans le réglage zéro coup, 68.0% dans le réglage one-shot et 71.2% dans le réglage à quelques coups, dépassant l'état de l'art (68%) de 3.2%.
    • Sur le LAMBADA ensemble de données, 76.2% de précision dans le réglage zéro coup, 72.5% dans le réglage one-shot et 86.4% dans le réglage à quelques coups, dépassant de 68% l'état de l'art (18%).
  • Les articles de presse générés par le modèle GPT-175 à 3B paramètres sont difficiles à distinguer des vrais, selon les évaluations humaines (avec une précision à peine supérieure au niveau de chance à ~ 52%). 
  • Malgré les performances remarquables de GPT-3, il a reçu des critiques mitigées de la part de la communauté AI :
    • «Le battage médiatique du GPT-3 est beaucoup trop. C'est impressionnant (merci pour les gentils compliments!) Mais il a encore de sérieuses faiblesses et fait parfois des erreurs très ridicules. L'IA va changer le monde, mais GPT-3 n'est qu'un aperçu très précoce. Nous avons encore beaucoup à découvrir. » - Sam Altman, PDG et co-fondateur d'OpenAI.
    • «Je suis choqué de voir à quel point il est difficile de générer un texte sur les musulmans à partir du GPT-3 qui n'a rien à voir avec la violence… ou le fait d'être tué…» - Abubakar Abid, PDG et fondateur de Gradio.
    • "Non. GPT-3 ne comprend pas fondamentalement le monde dont il parle. L'augmentation du corpus lui permettra de générer un pastiche plus crédible mais ne corrigera pas son manque fondamental de compréhension du monde. Les démos de GPT-4 nécessiteront toujours une sélection humaine. » - Gary Marcus, PDG et fondateur de Robust.ai.
    • «L'extrapolation des performances spectaculaires de GPT3 dans le futur suggère que la réponse à la vie, à l'univers et à tout n'est que de 4.398 milliards de paramètres.» - Geoffrey Hinton, lauréat du prix Turing.

Où en savoir plus sur cette recherche ?

Où pouvez-vous obtenir le code d'implémentation?

  • Le code lui-même n'est pas disponible, mais certaines statistiques de jeux de données ainsi que des échantillons inconditionnels et non filtrés de 2048 jetons de GPT-3 sont publiés le GitHub.

2. LaMDA par Google

Résumé 

Lalangue Mmodèles pour Ddialogue Aapplications (LeMDA) ont été créés grâce au processus de réglage fin d'un groupe de modèles de langage neuronal basés sur Transformer et spécialement conçus pour les dialogues. Ces modèles ont un maximum de 137B paramètres et ont été formés pour utiliser des sources de connaissances externes. Les développeurs de LaMDA avaient trois objectifs clés en tête : la qualité, la sécurité et l'ancrage. Les résultats ont démontré qu'un réglage fin permet de réduire l'écart de qualité avec les niveaux humains, mais que les performances du modèle sont restées inférieures aux niveaux humains en ce qui concerne la sécurité et l'ancrage. 

Barde de Google, libéré récemment comme alternative à ChatGPT, est alimenté par LaMDA. Bien que Bard soit souvent étiqueté comme ennuyeux, cela pourrait être considéré comme une preuve de l'engagement de Google à donner la priorité à la sécurité, même au milieu de l'intense rivalité entre Google et Microsoft pour établir une domination dans le domaine de l'IA générative.

Quel est le but? 

  • Construire un modèle pour les applications de dialogue en domaine ouvert, où un agent de dialogue est capable de converser sur n'importe quel sujet avec des réponses sensibles, spécifiques au contexte, fondées sur des sources fiables et éthiques.

Comment le problème est-il abordé ?

  • LaMDA est construit sur transformateur, une architecture de réseau de neurones que Google Research a inventée et open source en 2017.
    • Comme d'autres grands modèles de langage, y compris BERT et GPT-3, LaMDA est formé sur des téraoctets de données textuelles pour apprendre comment les mots sont liés les uns aux autres, puis prédire quels mots sont susceptibles de venir ensuite. 
    • Cependant, contrairement à la plupart des modèles de langage, LaMDA a été formé au dialogue pour relever les nuances qui distinguent la conversation ouverte des autres formes de langage.
  • Le modèle est également affiné pour améliorer la sensibilité, la sécurité et la spécificité de ses réponses. Bien que des expressions telles que « c'est bien » et « je ne sais pas » puissent être significatives dans de nombreux scénarios de dialogue, elles ne sont pas susceptibles de mener à des conversations intéressantes et engageantes.
    • Le générateur LaMDA génère d'abord plusieurs réponses candidates, qui sont toutes notées en fonction de leur degré de sécurité, de sensibilité, de spécificité et d'intérêt. Les réponses avec des scores de sécurité faibles sont filtrées, puis le résultat le mieux classé est sélectionné comme réponse.
Exemple de dialogue LaMDA

Quels sont les résultats?

  • De nombreuses expériences montrent que LaMDA peut participer à des conversations ouvertes sur une variété de sujets.
  • Une série d'évaluations qualitatives a confirmé que les réponses du modèle ont tendance à être sensées, spécifiques, intéressantes et fondées sur des sources externes fiables, mais il y a encore place à l'amélioration.
  • Malgré tous les progrès réalisés jusqu'à présent, les auteurs reconnaissent que le modèle présente encore de nombreuses limites pouvant entraîner la génération de réponses inappropriées, voire nuisibles.

Où en savoir plus sur cette recherche ?

Où pouvez-vous obtenir le code d'implémentation?

  • Une implémentation open source de PyTorch pour l'architecture de pré-formation de LaMDA est disponible sur GitHub.

3. Palm par Google

Résumé 

Pad'ailleurs Langue Mmodèle (Palmier) est un modèle de langage basé sur Transformer à 540 milliards de paramètres. PaLM a été formé sur 6144 puces TPU v4 à l'aide de Pathways, un nouveau système ML pour une formation efficace sur plusieurs pods TPU. Le modèle démontre les avantages de la mise à l'échelle dans l'apprentissage en quelques coups, obtenant des résultats de pointe sur des centaines de références de compréhension et de génération de la langue. PaLM surpasse les modèles de pointe affinés sur les tâches de raisonnement en plusieurs étapes et dépasse la performance humaine moyenne sur la référence BIG-bench.

Quel est le but? 

  • Améliorer la compréhension de la façon dont la mise à l'échelle de grands modèles de langage affecte l'apprentissage en quelques coups.

Comment le problème est-il abordé ?

  • L'idée clé est de mettre à l'échelle la formation d'un modèle de langage de 540 milliards de paramètres avec le système Pathways :
    • L'équipe utilisait le parallélisme des données au niveau du pod sur deux pods Cloud TPU v4 tout en utilisant des données standard et le parallélisme des modèles dans chaque pod.
    • Ils ont pu adapter la formation à 6144 puces TPU v4, la plus grande configuration de système basée sur TPU utilisée pour la formation à ce jour.
    • Le modèle a atteint une efficacité d'entraînement de 57.8 % d'utilisation des FLOP matériels, ce qui, comme le prétendent les auteurs, est l'efficacité d'entraînement la plus élevée jamais atteinte pour les grands modèles de langage à cette échelle. 
  • Les données de formation pour le modèle PaLM comprenaient une combinaison d'ensembles de données en anglais et multilingues contenant des documents Web de haute qualité, des livres, Wikipedia, des conversations et du code GitHub.
Modèle PaLM de Google

Quels sont les résultats?

  • De nombreuses expériences démontrent que les performances du modèle ont fortement augmenté à mesure que l'équipe évoluait vers son plus grand modèle.
  • Le PaLM 540B a atteint des performances exceptionnelles sur plusieurs tâches très difficiles :
    • Compréhension et génération du langage. Le modèle introduit a dépassé les performances en quelques coups des grands modèles précédents sur 28 des 29 tâches qui incluent des tâches de réponse aux questions, des tâches de cloze et de complétion de phrases, des tâches de compréhension de lecture en contexte, des tâches de raisonnement de bon sens, des tâches SuperGLUE et plus. Les performances de PaLM sur les tâches BIG-bench ont montré qu'il pouvait distinguer la cause et l'effet, ainsi que comprendre les combinaisons conceptuelles dans des contextes appropriés.
    • Raisonnement. Avec une invite à 8 coups, PaLM résout 58 % des problèmes dans GSM8K, une référence de milliers de questions mathématiques difficiles au niveau de l'école primaire, surpassant le meilleur score précédent de 55 % obtenu en affinant le modèle GPT-3 175B. PaLM démontre également la capacité à générer des explications explicites dans des situations qui nécessitent une combinaison complexe d'inférence logique en plusieurs étapes, de connaissance du monde et de compréhension approfondie du langage.
    • Génération de code. PaLM fonctionne à égalité avec le Codex 12B affiné tout en utilisant 50 fois moins de code Python pour la formation, confirmant que les grands modèles de langage transfèrent plus efficacement l'apprentissage des autres langages de programmation et des données de langage naturel.

Où en savoir plus sur cette recherche ?

Où pouvez-vous obtenir le code d'implémentation?

  • Une implémentation PyTorch non officielle de l'architecture Transformer spécifique du document de recherche PaLM est disponible sur GitHub. Il ne sera pas mis à l'échelle et est publié à des fins éducatives uniquement. 

4. Flamingo par DeepMind

Résumé 

Flamingo est une famille de pointe de modèles de langage visuel (VLM), formés sur des corpus Web multimodaux à grande échelle avec du texte et des images mixtes. Grâce à cette formation, les modèles peuvent s'adapter à de nouvelles tâches à l'aide d'exemples annotés minimaux, fournis sous forme d'invite. Flamingo intègre des avancées architecturales clés conçues pour fusionner les points forts des modèles pré-entraînés de vision uniquement et de langage uniquement, traiter des séquences de données visuelles et textuelles entrelacées de manière variable et accueillir des images ou des vidéos en tant qu'entrées de manière transparente. Les modèles font preuve d'une adaptabilité impressionnante à une gamme de tâches d'image et de vidéo telles que la réponse aux questions visuelles, les tâches de sous-titrage et la réponse aux questions visuelles à choix multiples, établissant de nouvelles normes de performance en utilisant des invites spécifiques à la tâche dans l'apprentissage en quelques prises de vue.

Quel est le but? 

  • Pour progresser vers la possibilité pour les modèles multimodaux d'apprendre et d'effectuer rapidement de nouvelles tâches sur la base d'instructions courtes :
    • Le paradigme largement utilisé consistant à pré-entraîner un modèle sur une grande quantité de données supervisées, puis à l'ajuster pour la tâche spécifique, nécessite beaucoup de ressources et nécessite des milliers de points de données annotés ainsi qu'un réglage minutieux des hyperparamètres par tâche. 
    • Les modèles actuels qui utilisent un objectif contrastif permettent une adaptation immédiate à de nouvelles tâches, mais ne parviennent pas à des tâches plus ouvertes comme le sous-titrage ou la réponse visuelle aux questions, car ils manquent de capacités de génération de langage. 
    • Cette recherche vise à introduire un nouveau modèle qui résout efficacement ces problèmes et démontre des performances supérieures dans les régimes à faible volume de données.

Comment le problème est-il abordé ?

  • Le DeepMind a introduit Flamingo, des VLM conçus pour un apprentissage en quelques coups sur diverses tâches de vision et de langage ouvertes, en utilisant seulement quelques exemples d'entrée/sortie.
  • Les modèles Flamingo sont des modèles de génération de texte autorégressifs conditionnés visuellement qui peuvent traiter des jetons de texte mélangés à des images et/ou des vidéos et générer du texte en sortie.
  • L'architecture de Flamingo intègre deux modèles complémentaires pré-entraînés et figés :
    • Un modèle de vision capable de "percevoir" des scènes visuelles.
    • Un grand modèle de langage chargé d'effectuer un raisonnement de base.
  • De nouveaux composants d'architecture intègrent ces modèles d'une manière qui conserve les connaissances acquises au cours de leur pré-formation intensive en calcul.
  • De plus, les modèles Flamingo disposent d'une architecture basée sur Perceiver, leur permettant d'ingérer des images ou des vidéos haute résolution. Cette architecture peut générer un nombre fixe de jetons visuels par image/vidéo à partir d'un large éventail variable de caractéristiques d'entrée visuelles.

Quels sont les résultats?

  • La recherche montre que, de la même manière que les LLM, qui sont de bons apprenants à quelques prises de vue, les VLM peuvent apprendre à partir de quelques exemples d'entrée/sortie pour des tâches de compréhension d'images et de vidéos telles que la classification, le sous-titrage ou la réponse aux questions.
  • Flamingo établit une nouvelle référence dans l'apprentissage en quelques prises de vue, démontrant des performances supérieures sur un large éventail de 16 tâches de compréhension multimodales du langage et de l'image/vidéo.
  • Pour 6 de ces 16 tâches, Flamingo surpasse les performances de l'état de l'art affiné, même s'il n'utilise que 32 exemples spécifiques à une tâche - environ 1000 fois moins de données d'entraînement spécifiques à une tâche que les modèles actuels les plus performants.
Modèle de langage visuel Flamingo

Où en savoir plus sur cette recherche ?

Où pouvez-vous obtenir le code d'implémentation?

  • DeepMind n'a pas publié l'implémentation officielle de Flamingo. 
  • Vous pouvez trouver une implémentation open source de l'approche introduite dans le Dépôt OpenFlamingo Github.
  • L'implémentation alternative de PyTorch est disponible ici.

5. BLIP-2 par Salesforce

Résumé 

BLIP-2 est un cadre de pré-formation efficace et générique pour les modèles de vision et de langage, conçu pour contourner le coût de plus en plus prohibitif des modèles à grande échelle de pré-formation. BLIP-2 s'appuie sur des encodeurs d'images préformés figés prêts à l'emploi et sur de grands modèles de langage figés pour amorcer la préformation du langage visuel, en incorporant un transformateur de requête léger préformé en deux étapes. La première étape initie l'apprentissage de la représentation du langage visuel à partir d'un encodeur d'image figé, et la deuxième étape propulse l'apprentissage génératif de la vision au langage à partir d'un modèle de langage figé. Bien qu'il ait beaucoup moins de paramètres entraînables, BLIP-2 surpasse les méthodes de pointe, dépassant le Flamingo80B de DeepMind de 8.7 % sur le VQAv2 zéro coup avec 54 fois moins de paramètres entraînables. Le modèle présente également des capacités prometteuses de génération d'image en texte sans prise de vue en suivant des instructions en langage naturel.

Cadre BLIP-2
Présentation du cadre de BLIP-2

Quel est le but? 

  • Pour obtenir des performances de pointe sur les tâches de langage de vision, tout en réduisant les coûts de calcul.

Comment le problème est-il abordé ?

  • L'équipe Salesforce a introduit un nouveau cadre de pré-formation en langage visuel appelé BLIP-2, Bootstrapping Llangue-Image Préentraînement avec des modèles unimodaux gelés :
    • Les modèles unimodaux pré-formés restent figés pendant la pré-formation pour réduire les coûts de calcul et éviter le problème d'oubli catastrophique.
    • Pour faciliter l'alignement intermodal et combler l'écart de modalité entre les modèles de vision pré-formés et les modèles de langage pré-formés, l'équipe propose un transformateur de requête léger (Q-Former) qui agit comme un goulot d'étranglement d'informations entre l'encodeur d'image gelé et le gelé. LLM.
    • Q-former est pré-formé avec une nouvelle stratégie en deux étapes :
      • La première étape de pré-formation effectue un apprentissage de la représentation du langage visuel. Cela oblige le Q-Former à apprendre la représentation visuelle la plus pertinente pour le texte.
      • La deuxième étape de pré-formation effectue un apprentissage génératif de la vision au langage en connectant la sortie du Q-Former à un LLM gelé. Le Q-Former est entraîné de manière à ce que sa représentation visuelle de sortie puisse être interprétée par le LLM.

Quels sont les résultats?

  • BLIP-2 fournit des résultats exceptionnels et à la pointe de la technologie dans une variété de tâches de langage visuel, englobant la réponse visuelle aux questions, le sous-titrage d'images et la récupération de texte d'image.
    • Par exemple, il surpasse Flamingo de 8.7 % sur le VQAv2 sans prise de vue.
  • De plus, ces performances exceptionnelles sont obtenues avec une efficacité informatique nettement supérieure :
    • BLIP-2 surpasse Flamingo-80B tout en utilisant 54 fois moins de paramètres entraînables. 
  • BLIP-2 a la capacité d'entreprendre une génération d'image en texte sans prise de vue en réponse à des instructions en langage naturel, ouvrant ainsi la voie au développement de compétences telles que le raisonnement des connaissances visuelles et la conversation visuelle, entre autres.
  • Enfin, il est important de noter que BLIP-2 est une approche polyvalente qui peut tirer parti de modèles unimodaux plus sophistiqués pour améliorer encore les performances de la pré-formation du langage visuel.
Résultats du BLIP-2
Résultats du BLIP-2

Où en savoir plus sur cette recherche ?

Où pouvez-vous obtenir le code d'implémentation?

L'implémentation officielle de BLIP-2 est disponible sur GitHub.

6. LLaMA par Meta AI

Résumé 

L'équipe Meta AI affirme que les modèles plus petits formés sur plus de jetons sont plus faciles à recycler et à affiner pour des applications de produits spécifiques. Par conséquent, ils introduisent Lama (Large Lalangue Mmodèle Meta AI), une collection de modèles de langage fondamentaux avec des paramètres 7B à 65B. Les LLaMA 33B et 65B ont été formés sur 1.4 billion de jetons, tandis que le plus petit modèle, LLaMA 7B, a été formé sur un billion de jetons. Ils ont utilisé exclusivement des ensembles de données accessibles au public, sans dépendre de données propriétaires ou restreintes. L'équipe a également mis en œuvre des améliorations architecturales clés et des techniques d'optimisation de la vitesse de formation. Par conséquent, LLaMA-13B a ​​surpassé GPT-3, étant plus de 10 fois plus petit, et LLaMA-65B a présenté des performances compétitives avec PaLM-540B.

Quel est le but? 

  • Démontrer la faisabilité de la formation des modèles les plus performants uniquement sur des ensembles de données accessibles au public, sans s'appuyer sur des sources de données propriétaires ou restreintes.
  • Fournir à la communauté des chercheurs des modèles plus petits et plus performants et ainsi permettre à ceux qui n'ont pas accès à de grandes quantités d'infrastructures d'étudier de grands modèles de langage.

Comment le problème est-il abordé ?

  • Pour former le modèle LLaMA, les chercheurs n'ont utilisé que des données accessibles au public et compatibles avec l'open source.
  • Ils ont également apporté quelques améliorations à l'architecture standard de Transformer :
    • En adoptant la méthodologie GPT-3, la stabilité de la formation a été améliorée en normalisant l'entrée pour chaque sous-couche de transformateur, plutôt qu'en normalisant la sortie.
    • Inspirés par les modèles PaLM, les chercheurs ont remplacé la non-linéarité ReLU par la fonction d'activation SwiGLU, pour améliorer les performances.
    • Inspiré par Su et coll. (2021), ils ont éliminé les intégrations positionnelles absolues et ont plutôt incorporé des intégrations positionnelles rotatives (RoPE) à chaque couche du réseau.
  • Enfin, l'équipe Meta AI a amélioré la vitesse d'apprentissage de son modèle en :
    • Utiliser une mise en œuvre efficace de l'attention multi-tête causale en ne stockant pas les poids d'attention ou en calculant les scores de clé/requête masqués.
    • Utilisation de points de contrôle pour minimiser les activations recalculées lors de la passe arrière.
    • Chevauchement du calcul des activations et de la communication entre les GPU sur le réseau (en raison des opérations all_reduce).

Quels sont les résultats?

  • Le LLaMA-13B surpasse le GPT-3 bien qu'il soit plus de 10 fois plus petit, tandis que le LLaMA-65B résiste au PaLM-540B.

Où en savoir plus sur cette recherche ?

Où pouvez-vous obtenir le code d'implémentation?

  • Meta AI donne accès à LLaMA aux chercheurs universitaires, aux personnes associées au gouvernement, à la société civile, aux institutions universitaires et aux laboratoires de recherche de l'industrie mondiale sur la base d'une évaluation de cas individuels. Pour postuler, rendez-vous ci-dessous GitHub référentiel.

7. GPT-4 par OpenAI

Résumé 

GPT-4 est un modèle multimodal à grande échelle qui accepte les entrées d'image et de texte et génère des sorties de texte. En raison de problèmes de concurrence et de sécurité, des détails spécifiques sur l'architecture et la formation du modèle ne sont pas divulgués. En termes de performances, GPT-4 surpasse les modèles de langage précédents sur les benchmarks traditionnels et montre des améliorations significatives dans la compréhension de l'intention de l'utilisateur et les propriétés de sécurité. Le modèle atteint également des performances de niveau humain lors de divers examens, y compris un score supérieur de 10% lors d'un examen uniforme du barreau simulé.

Quel est le but? 

  • Développer un modèle multimodal à grande échelle qui peut accepter des entrées d'image et de texte et produire des sorties de texte. 
  • Développer des infrastructures et des méthodes d'optimisation qui se comportent de manière prévisible sur une large gamme d'échelles.

Comment le problème est-il abordé ?

  • En raison du paysage concurrentiel et des implications en matière de sécurité, OpenAI a décidé de ne pas divulguer les détails sur l'architecture, la taille du modèle, le matériel, le calcul de formation, la construction d'ensembles de données et les méthodes de formation.
  • Ils divulguent que :
    • GPT-4 est un modèle basé sur Transformer, pré-entraîné pour prédire le jeton suivant dans un document.
    • Il utilise des données accessibles au public et des données sous licence de tiers.
    • Le modèle a été affiné à l'aide de l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF).
  • Des informations non confirmées suggèrent que GPT-4 n'est pas un modèle dense singulier comme ses prédécesseurs, mais une puissante coalition de huit modèles distincts, chacun contenant 220 milliards de paramètres.
Performances GPT-4

Quels sont les résultats?

  • GPT-4 atteint des performances de niveau humain dans la plupart des examens professionnels et académiques, notamment en obtenant un score parmi les 10 % supérieurs lors d'un examen uniforme du barreau simulé.
  • Le modèle GPT-4 de base pré-formé surpasse les modèles de langage existants et les systèmes de pointe antérieurs sur les benchmarks NLP traditionnels, sans artisanat spécifique à un benchmark ni protocoles de formation supplémentaires.
  • GPT-4 démontre une amélioration substantielle dans le suivi de l'intention de l'utilisateur, avec ses réponses préférées aux réponses de GPT-3.5 dans 70.2 % des 5,214 XNUMX invites de ChatGPT et de l'API OpenAI.
  • Les propriétés de sécurité de GPT-4 se sont considérablement améliorées par rapport à GPT-3.5, avec une diminution de 82 % des réponses aux demandes de contenu refusées et une augmentation de 29 % de la conformité aux politiques pour les demandes sensibles (par exemple, les conseils médicaux et l'automutilation).

Où en savoir plus sur cette recherche ?

Où pouvez-vous obtenir le code d'implémentation?

  • L'implémentation de code de GPT-4 n'est pas disponible.

Applications réelles des grands modèles de langage (de vision)

Les percées les plus importantes de la recherche en IA de ces dernières années proviennent de grands modèles d'IA entraînés sur d'énormes ensembles de données. Ces modèles affichent des performances impressionnantes et il est fascinant de penser à la façon dont l'IA peut révolutionner des secteurs entiers, comme le service client, le marketing, le commerce électronique, la santé, le développement de logiciels, le journalisme et bien d'autres.

Les grands modèles de langage ont de nombreuses applications dans le monde réel. GPT-4 répertorie les éléments suivants :

  • Compréhension et génération du langage naturel pour chatbots et assistants virtuels.
  • Traduction automatique entre les langues.
  • Résumé d'articles, de rapports ou d'autres documents textuels.
  • Analyse des sentiments pour les études de marché ou la surveillance des médias sociaux.
  • Génération de contenu pour le marketing, les médias sociaux ou l'écriture créative.
  • Systèmes de questions-réponses pour le support client ou les bases de connaissances.
  • Classification de texte pour le filtrage des spams, la catégorisation des sujets ou l'organisation des documents.
  • Outils personnalisés d'apprentissage et de tutorat des langues.
  • Génération de code et assistance au développement de logiciels.
  • Analyse et assistance de documents médicaux, juridiques et techniques.
  • Outils d'accessibilité pour les personnes handicapées, tels que la conversion texte-parole et parole-texte.
  • Services de reconnaissance vocale et de transcription.

Si on ajoute une partie visuelle, les domaines d'applications possibles s'élargissent encore :

C'est très excitant de suivre les récentes percées de l'IA et de réfléchir à leurs applications potentielles dans le monde réel. Cependant, avant de déployer ces modèles dans la vie réelle, nous devons aborder les risques et les limites correspondants, qui sont malheureusement assez importants.

Risques et limites

Si vous interrogez GPT-4 sur ses risques et ses limites, il vous fournira probablement une longue liste de préoccupations pertinentes. Après avoir filtré cette liste et ajouté quelques considérations supplémentaires, je me suis retrouvé avec l'ensemble suivant de risques et de limitations clés possédés par les grands modèles de langage modernes :

  1. Préjugés et discrimination: Ces modèles apprennent à partir de grandes quantités de données textuelles, qui contiennent souvent des biais et un contenu discriminatoire. En conséquence, les résultats générés peuvent perpétuer par inadvertance des stéréotypes, un langage offensant et une discrimination basée sur des facteurs tels que le sexe, la race ou la religion.
  2. Désinformation : Les modèles de langage volumineux peuvent générer un contenu factuellement incorrect, trompeur ou obsolète. Bien que les modèles soient formés sur un large éventail de sources, ils ne fournissent pas toujours les informations les plus précises ou les plus à jour. Cela se produit souvent parce que le modèle donne la priorité à la génération de sorties grammaticalement correctes ou qui semblent cohérentes, même si elles sont trompeuses.
  3. Manque de compréhension: Bien que ces modèles semblent comprendre le langage humain, ils fonctionnent principalement en identifiant des modèles et des associations statistiques dans les données de formation. Ils n'ont pas une compréhension approfondie du contenu qu'ils génèrent, ce qui peut parfois entraîner des résultats absurdes ou non pertinents.
  4. Contenu inapproprié : Les modèles linguistiques peuvent parfois générer du contenu offensant, préjudiciable ou inapproprié. Bien que des efforts soient faits pour minimiser ce contenu, cela peut toujours se produire en raison de la nature des données de formation et de l'incapacité des modèles à discerner le contexte ou l'intention de l'utilisateur.

Conclusion

Les grands modèles de langage ont sans aucun doute révolutionné le domaine du traitement du langage naturel et ont démontré un potentiel immense pour améliorer la productivité dans divers rôles et industries. Leur capacité à générer du texte de type humain, à automatiser des tâches banales et à fournir une assistance dans les processus créatifs et analytiques en a fait des outils indispensables dans le monde d'aujourd'hui en évolution rapide et axé sur la technologie.

Cependant, il est crucial de reconnaître et de comprendre les limites et les risques associés à ces puissants modèles. Des problèmes tels que les préjugés, la désinformation et le potentiel d'utilisation malveillante ne peuvent être ignorés. Alors que nous continuons à intégrer ces technologies basées sur l'IA dans notre vie quotidienne, il est essentiel de trouver un équilibre entre l'exploitation de leurs capacités et la garantie d'une supervision humaine, en particulier dans les situations sensibles et à haut risque.

Si nous réussissons à adopter les technologies d'IA génératives de manière responsable, nous ouvrirons la voie à un avenir où l'intelligence artificielle et l'expertise humaine travailleront ensemble pour stimuler l'innovation et créer un monde meilleur pour tous.

Vous aimez cet article? Inscrivez-vous pour plus de mises à jour de recherche sur l'IA.

Nous vous informerons lorsque nous publierons d'autres articles résumés comme celui-ci.

Horodatage:

Plus de TOPBOTS