Alibaba lance des modèles d'IA qui comprennent les images et mènent des conversations plus complexes

Alibaba lance des modèles d'IA qui comprennent les images et mènent des conversations plus complexes

Nœud source: 2849026

L’espace de l’intelligence artificielle (IA) se réchauffe. Juste hier, Le sud-coréen Naver a annoncé le lancement d'HyperClova X, un nouveau service d'IA générative pour concurrencer ChatGPT. Aujourd'hui, le géant chinois de l'Internet dévoile deux modèles d'IA open source capables de comprendre les images et d'avoir des conversations plus complexes.

Vendredi, Alibaba a dévoilé de nouveaux modèles d'IA conçus pour comprendre des images et engager des conversations plus complexes par rapport à leurs offres précédentes. Cette version intervient à un moment de concurrence mondiale intense pour le leadership technologique.

La puissance technologique chinoise a déclaré que ses deux nouveaux modèles, appelés Qwen-VL et Qwen-VL-Chat, seront mis à disposition sous forme d'outils open source, ce qui signifie que les chercheurs, les éducateurs et les entreprises du monde entier pourront utiliser ces modèles pour développer leur propres applications d’IA sans avoir besoin de former leurs systèmes individuels. Cette approche permet non seulement de gagner du temps, mais réduit également considérablement les coûts.

La nouvelle arrive juste un mois après qu'Alibaba a lancé Tongyi Wanxiang, un outil de génération d'images d'IA qui concurrence DALL-E et Midjourney d'OpenAI. Tongyi Wanxiang, lancé par la division cloud d'Alibaba, permet aux utilisateurs de saisir des invites de texte en chinois ou en anglais, et l'outil d'IA génère des images correspondantes dans différents styles, tels que des croquis ou des dessins animés en 3D. Actuellement, l'outil est disponible en version bêta exclusivement pour les entreprises clientes en Chine.

Les deux nouveaux modèles de langage d'IA ont également été développés par l'unité cloud de l'entreprise, Alibaba Cloud. Selon rapports, le géant de la technologie a déclaré que Qwen-VL avait été conçu pour être l'évolution avancée de son modèle à 7 milliards de paramètres, Tongyi Qianwen. Ce modèle dynamique présente une capacité remarquable à gérer sans effort à la fois les images et les invites textuelles. Sa polyvalence va de la réponse efficace à des questions très diverses liées à diverses images à la création de légendes captivantes pour ces images.

Alibaba a également ajouté que Qwen-VL peut effectuer plusieurs tâches en même temps. Non seulement il peut répondre à des questions ouvertes liées à diverses images, mais il peut également créer des légendes pour ces images.

Mais la véritable star du spectacle est Qwen-VL-Chat. Cette IA gère des interactions plus complexes, comme la comparaison de plusieurs images et la gestion de séries de questions. Cela ne s'arrête pas là : Alibaba se vante de pouvoir raconter des histoires, évoquer des images basées sur des photos soumises par les utilisateurs et même résoudre des problèmes mathématiques présentés en images.

Un exemple intéressant qu’ils ont donné concerne un panneau d’hôpital en chinois. Qwen-VL-Chat peut le décoder et donner des informations sur l'emplacement des différents services hospitaliers.

Pendant ce temps, une grande partie du « génie » actuel de l’IA concerne généralement le texte. Mais les temps changent. Qwen-VL-Chat et la dernière version de ChatGPT d'OpenAI font bouger les choses, répondant aux images avec du texte d'une manière assez impressionnante. C'est comme si l'IA apprenait à parler un nouveau langage visuel !


Horodatage:

Plus de Startups technologiques