Alibaba lanserar AI-modeller som förstår bilder och har mer komplexa konversationer

Alibaba lanserar AI-modeller som förstår bilder och har mer komplexa konversationer

Källnod: 2849026

Rymden med artificiell intelligens (AI) håller på att värmas upp. Bara igår, Sydkoreas Naver tillkännagav lanseringen av HyperClova X, en ny generativ AI-tjänst för att konkurrera med ChatGPT. Nu avslöjar Kinas internetjätte två AI-modeller med öppen källkod som kan förstå bilder och ha mer komplexa konversationer.

På fredagen presenterade Alibaba nya AI-modeller utformade för att förstå bilder och engagera sig i mer intrikata konversationer jämfört med deras tidigare erbjudanden. Den här utgåvan kommer i en tid av intensiv global konkurrens om tekniskt ledarskap.

Det kinesiska tekniska kraftpaketet uppgav att deras två nya modeller, kallade Qwen-VL och Qwen-VL-Chat, kommer att göras tillgängliga som verktyg med öppen källkod, vilket innebär att forskare, utbildare och företag runt om i världen kan använda dessa modeller för att utveckla sina egna AI-applikationer utan att behöva träna sina individuella system. Detta tillvägagångssätt sparar inte bara tid utan minskar också kostnaderna avsevärt.

Nyheten kommer bara en månad efter att Alibaba lanserade Tongyi Wanxiang, ett AI-bildgenereringsverktyg som konkurrerar med OpenAI:s DALL-E & Midjourney. Tongyi Wanxiang, som lanserats av Alibabas molndivision, tillåter användare att mata in textmeddelanden på antingen kinesiska eller engelska, och AI-verktyget genererar motsvarande bilder i olika stilar, som skisser eller 3D-tecknade serier. För närvarande är verktyget tillgängligt för beta-testning exklusivt för företagskunder i Kina.

De två nya AI-språkmodellerna utvecklades också av företagets molnenhet, Alibaba Cloud. Enligt rapporter, sa teknikjätten att Qwen-VL utformades för att vara den avancerade utvecklingen av dess modell med 7 miljarder parametrar, Tongyi Qianwen. Denna dynamiska modell visar upp en anmärkningsvärd förmåga att enkelt hantera både bilder och textuppmaningar. Dess mångsidighet sträcker sig från att effektivt svara på breda frågor relaterade till olika bilder till att skapa fängslande bildtexter för dessa bilder.

Alibaba tillade också att Qwen-VL kan utföra flera uppgifter samtidigt. Det kan inte bara svara på öppna frågor relaterade till olika bilder utan det kan också skapa bildtexter för dessa bilder.

Men den verkliga stjärnan i programmet är Qwen-VL-Chat. Denna AI hanterar mer intrikata interaktioner, som att jämföra flera bilder och hantera frågerundor. Det stannar inte där – Alibaba skryter med att det kan snurra berättelser, trolla fram bilder baserade på användarinskickade bilder och till och med lösa matematiska problem som presenteras i bilder.

Ett coolt exempel som de gav är en sjukhusskylt på kinesiska. Qwen-VL-Chat kan avkoda det och ge information om var olika sjukhusavdelningar finns.

Under tiden har mycket av nuvarande AI:s "genialitet" vanligtvis handlat om text. Men tiderna förändras. Qwen-VL-Chat och den senaste versionen av OpenAIs ChatGPT skakar om saker och svarar på bilder med text på ett sätt som är ganska imponerande. Det är som att AI lär sig tala ett nytt visuellt språk!


Tidsstämpel:

Mer från TechStartups