Alibaba führt KI-Modelle ein, die Bilder verstehen und komplexere Gespräche führen können

Alibaba führt KI-Modelle ein, die Bilder verstehen und komplexere Gespräche führen können

Quellknoten: 2849026

Der Bereich der künstlichen Intelligenz (KI) heizt sich auf. Gerade gestern, Das südkoreanische Unternehmen Naver kündigte die Einführung von HyperClova X an, ein neuer generativer KI-Dienst, der mit ChatGPT konkurrieren soll. Jetzt stellt Chinas Internetriese zwei Open-Source-KI-Modelle vor, die Bilder verstehen und komplexere Gespräche führen können.

Am Freitag stellte Alibaba neue KI-Modelle vor, die im Vergleich zu ihren früheren Angeboten Bilder verstehen und komplexere Gespräche führen sollen. Diese Veröffentlichung erfolgt in einer Zeit intensiven globalen Wettbewerbs um die Technologieführerschaft.

Das chinesische Technologieunternehmen gab bekannt, dass seine beiden neuartigen Modelle Qwen-VL und Qwen-VL-Chat als Open-Source-Tools zur Verfügung gestellt werden, was bedeutet, dass Forscher, Pädagogen und Unternehmen auf der ganzen Welt diese Modelle zur Entwicklung ihrer eigenen Modelle nutzen können eigene KI-Anwendungen ohne die Notwendigkeit, ihre individuellen Systeme zu trainieren. Dieser Ansatz spart nicht nur Zeit, sondern senkt auch die Kosten erheblich.

Die Nachricht kommt nur einen Monat, nachdem Alibaba Tongyi Wanxiang auf den Markt gebracht hat, ein KI-Bildgenerierungstool, das mit DALL-E und Midjourney von OpenAI konkurriert. Mit Tongyi Wanxiang, das von der Cloud-Abteilung von Alibaba ins Leben gerufen wurde, können Benutzer Textaufforderungen entweder auf Chinesisch oder Englisch eingeben, und das KI-Tool generiert entsprechende Bilder in verschiedenen Stilen, etwa Skizzen oder 3D-Cartoons. Derzeit steht das Tool zum Betatest ausschließlich Unternehmenskunden in China zur Verfügung.

Die beiden neuen KI-Sprachmodelle wurden ebenfalls von der Cloud-Einheit des Unternehmens, Alibaba Cloud, entwickelt. Entsprechend Berichte, sagte der Technologieriese, dass Qwen-VL als Weiterentwicklung seines 7-Milliarden-Parameter-Modells Tongyi Qianwen konzipiert sei. Dieses dynamische Modell zeigt eine bemerkenswerte Fähigkeit, sowohl Bilder als auch Textaufforderungen mühelos zu verarbeiten. Seine Vielseitigkeit reicht von der effektiven Beantwortung weitreichender Fragen zu verschiedenen Bildern bis hin zur Erstellung fesselnder Bildunterschriften für diese Bilder.

Alibaba fügte außerdem hinzu, dass Qwen-VL mehrere Aufgaben gleichzeitig ausführen kann. Es kann nicht nur offene Fragen zu verschiedenen Bildern beantworten, sondern auch Bildunterschriften für diese Bilder erstellen.

Aber der eigentliche Star der Show ist Qwen-VL-Chat. Diese KI übernimmt komplexere Interaktionen, wie den Vergleich mehrerer Bilder und die Abwicklung von Befragungsrunden. Das ist aber noch nicht alles: Alibaba rühmt sich damit, Geschichten zu erzählen, Bilder auf der Grundlage von von Benutzern eingereichten Fotos heraufzubeschwören und sogar in Bildern dargestellte mathematische Probleme zu lösen.

Als cooles Beispiel nannten sie ein Krankenhausschild auf Chinesisch. Qwen-VL-Chat kann es entschlüsseln und Aufschluss darüber geben, wo sich verschiedene Krankenhausabteilungen befinden.

Mittlerweile dreht sich ein Großteil der „Genialität“ der aktuellen KI typischerweise um Text. Aber die Zeiten ändern sich. Qwen-VL-Chat und die neueste Version von OpenAIs ChatGPT sorgen für Abwechslung und reagieren auf Bilder mit Text auf ziemlich beeindruckende Weise. Es ist, als würde die KI lernen, eine neue visuelle Sprache zu sprechen!


Zeitstempel:

Mehr von TechStartups