עליבאבא משיקה מודלים של AI שמבינים תמונות ומנהלים שיחות מורכבות יותר

עליבאבא משיקה מודלים של AI שמבינים תמונות ומנהלים שיחות מורכבות יותר

צומת המקור: 2849026

חלל הבינה המלאכותית (AI) מתחמם. רק אתמול, Naver מדרום קוריאה הודיעה על השקת HyperClova X, שירות AI חדשני להתחרות ב-ChatGPT. כעת, ענקית האינטרנט של סין חושפת שני דגמי AI בקוד פתוח שיכולים להבין תמונות ולנהל שיחות מורכבות יותר.

ביום שישי, Alibaba חשפה דגמי AI חדשים שנועדו להבין תמונות ולהשתתף בשיחות מורכבות יותר בהשוואה להצעות הקודמות שלהם. מהדורה זו מגיעה בתקופה של תחרות עולמית עזה על מנהיגות טכנולוגית.

מעצמת הטכנולוגיה הסינית הצהירה כי שני המודלים החדשים שלהם, הנקראים Qwen-VL ו-Qwen-VL-Chat, יהיו זמינים ככלי קוד פתוח, כלומר חוקרים, מחנכים ועסקים ברחבי העולם יכולים להשתמש במודלים אלה כדי לפתח את יישומי AI ללא צורך באימון המערכות האישיות שלהם. גישה זו לא רק חוסכת זמן אלא גם מפחיתה עלויות באופן משמעותי.

החדשות מגיעות חודש בלבד לאחר שעליבאבא השיקה את Tongyi Wanxiang, כלי ליצירת תמונות בינה מלאכותית המתחרה ב-DALL-E & Midjourney של OpenAI. Tongyi Wanxiang, שהושקה על ידי חטיבת הענן של עליבאבא, מאפשרת למשתמשים להזין הודעות טקסט בסינית או באנגלית, וכלי הבינה המלאכותית מייצרת תמונות מתאימות בסגנונות שונים, כמו סקיצות או קריקטורות תלת מימדיות. נכון לעכשיו, הכלי זמין לבדיקות בטא אך ורק ללקוחות ארגוניים בסין.

שני דגמי שפת ה-AI החדשים פותחו גם על ידי יחידת הענן של החברה, Alibaba Cloud. לפי דיווחים, ענקית הטכנולוגיה אמרה ש-Qwen-VL תוכנן להיות האבולוציה המתקדמת של דגם ה-7 מיליארד פרמטרים שלה, Tongyi Qianwen. דגם דינמי זה מציג יכולת יוצאת דופן לטפל ללא מאמץ הן בתמונות והן בהודעות טקסט. הרבגוניות שלו משתרעת ממתן מענה יעיל לשאלות רחבות טווח הקשורות לתמונות שונות ועד ליצירת כיתובים שובי לב לאותן תמונות.

עליבאבא גם הוסיפה כי Qwen-VL יכול לבצע מספר משימות בו זמנית. לא רק שהוא יכול לענות על שאלות פתוחות הקשורות לתמונות שונות, אלא הוא גם יכול ליצור כיתובים לתמונות האלה.

אבל הכוכב האמיתי של התוכנית הוא Qwen-VL-Chat. AI זה מטפל באינטראקציות מורכבות יותר, כמו השוואת תמונות מרובות וטיפול בסבבי תשאול. זה לא עוצר שם - עליבאבא מתגאה בכך שהוא יכול לסובב סיפורים, להעלות תמונות על סמך תמונות שנשלחו על ידי המשתמש, ואפילו לפתור בעיות מתמטיות המוצגות בתמונות.

דוגמה מגניבה שהם נתנו כוללת שלט בית חולים בסינית. Qwen-VL-Chat יכול לפענח אותו ולתת את הסקופ היכן ממוקמות מחלקות בית החולים השונות.

בינתיים, חלק ניכר מה"גאונות" של הבינה המלאכותית הנוכחית היה בדרך כלל בטקסט. אבל הזמנים משתנים. Qwen-VL-Chat והגרסה האחרונה של ChatGPT של OpenAI מרעידות את העניינים, מגיבים לתמונות עם טקסט בצורה די מרשימה. זה כמו בינה מלאכותית שלומדת לדבר בשפה חזותית חדשה!


בול זמן:

עוד מ TechStartups