ChatGPT intégré à Robot, Internet craint la fin de la civilisation

ChatGPT intégré à Robot, Internet craint la fin de la civilisation

Nœud source: 2611695

Une équipe de chercheurs doctorants d'Arabie saoudite a développé un nouvel outil alimenté par l'IA, MiniGPT-4, qui a des attributs similaires à OpenAI's ChatGPT-4.

Depuis que ChatGPT est sorti en novembre et est devenu un succès mondial, les développeurs n'ont reculé devant rien pour proposer de nouveaux outils d'IA qui rivalisent avec le populaire chatbot ou le complètent.

MiniGPT-4, développé à l'aide du modèle ChatGPT, n'est que le dernier exemple en date.

A lire également: Bill Gates : les chatbots IA pourraient apprendre aux enfants à lire en 18 mois

Selon Outils futurs, MiniGPT-4 est capable d'effectuer de nombreuses tâches, notamment la génération de descriptions d'images et la création de sites Web.

"Cet outil est capable de générer des descriptions d'images détaillées, de créer des sites Web à partir de brouillons écrits à la main, d'écrire des histoires et des poèmes inspirés par des images données, de fournir des solutions aux problèmes présentés dans les images et d'enseigner aux utilisateurs comment cuisiner à partir de photos de nourriture", affirme Future. Outils.

Lors de la sortie de ChatGPT-4, une vidéo du modèle créant un site Web à partir d'une image de croquis a été diffusée. Selon un tweet de Barsee, MiniGPT-4 a la capacité de réaliser le même exploit. La seule différence est que ChatGPT-4 n'est pas disponible pour tout le monde à l'heure actuelle, tandis que MiniGPT-4 est déjà dans la nature.

Comprendre MiniGPT

Selon Ghacks, MiniGPT-4 utilise un LLM avancé appelé Vicuna comme décodeur de langue, qui est basé sur LLaMa et est censé atteindre 90 % de la qualité de ChatGPT telle qu'évaluée par GPT-4.

Le modèle d'IA a utilisé le composant pré-formé de Bootstrapping Language Image Pre-training (BLIP-2) et a ajouté une seule couche d'injection pour aligner les caractéristiques visuelles codées avec le modèle de langage Vicuna en gelant tous les autres composants de la vision et du langage.

David Watson dit MiniGPT est léger et peut être facilement mis en œuvre dans des situations en temps réel comme les chatbots, les assistants virtuels et les systèmes de sous-titrage d'image automatisés.

Il énumère également quelques applications possibles qui peuvent être une bonne utilisation pour MiniGPT-4 : créer des systèmes de sous-titrage d'images qui ne nécessitent que des ressources légères ; et la description d'images pour les malvoyants à l'aide de la description audio, une méthode qui nécessiterait d'inclure un système texte-audio.

Tandis que OpenAI confirmé les capacités multimodales de GPT-4, ils n'ont pas encore libéré ses capacités de traitement d'image. MiniGPT-4 comble cette lacune en traitant les images parallèlement au langage à l'aide d'un LLM plus sophistiqué.

Un outil d'IA pour aider la recherche

Les experts disent que le modèle de langage fondamental de pointe utilisé est conçu pour aider les chercheurs à faire avancer leurs travaux dans ce segment particulier de l'IA.

Étant donné qu'OpenAI n'a pas divulgué beaucoup d'informations sur l'architecture, la taille du modèle, le matériel, le calcul de formation, la construction d'ensembles de données ou la méthode de formation de GPT-4, la nature open source de MiniGPT-4 peut s'avérer particulièrement précieuse pour les chercheurs.

"La capacité de MiniGPT à traiter les images offre aux chercheurs de nouvelles opportunités pour étudier la relation entre les modèles de langage et de vision", a déclaré Yana Khara, écrivant pour Analytique Vidhaya.

"En offrant un modèle plus petit et plus accessible aux chercheurs, MiniGPT-4 peut stimuler l'innovation et les progrès de la technologie de l'IA.

"De plus, la fondation open source du modèle garantit que la communauté de la recherche peut collaborer et partager ses découvertes pour progresser davantage dans le domaine."

MiniGPT amène le sous-titrage d'images à un autre niveau

Barsee, qui a tweeté un fil décrivant comment MiniGPT-4 peut être utilisé pour discuter avec des images, a inclus certains des cas suivants :

Réparer les objets cassés

En téléchargeant une photo d'un article cassé sur la plate-forme MiniGPT et en vous demandant comment vous pourriez résoudre la situation dans l'image, le chatbot expliquera la situation dans l'image et suggérera des moyens de résoudre les problèmes identifiés.

Dans le tweet, MiniGPT peut facilement identifier le problème, une machine à laver qui fuit, en expliquant les raisons pour lesquelles la fuite pourrait se produire et en fournissant également une liste de solutions que l'utilisateur pourrait essayer.

Rédaction d'annonces

En autre tweet de Barsee sur le fil MiniGPT, il a inclus un scénario où MiniGPT a reçu une photo d'une tasse que l'utilisateur fabrique et vend. L'utilisateur demande alors au chatbot d'écrire une publicité pour commercialiser les tasses, ce que le chatbot fait dûment.

Brèves introductions

Téléchargez simplement une image d'un film et demandez à MiniGPT de vous donner une brève introduction ; il produira alors un paragraphe d'introduction du film en question. Comme on le voit dans le tweet, le chatbot MiniGPT reconnaît l'image de "Le Parrain" et écrit une intro du film comme indiqué.

Le marché a vu d'innombrables nouveaux outils d'IA développés depuis le lancement de ChatGPT. Il y a plus d'alternatives au célèbre chatbot avec d'autres qui le dépasseraient, notamment GPT automatique, qui continue de faire des vagues dans la communauté de l'IA. À ce rythme, il semble presque inévitable que nous nous retrouvions avec un embarras de richesses en IA pour pratiquement n'importe quelle tâche humaine.

Horodatage:

Plus de MétaActualités