Alibaba meluncurkan model AI yang memahami gambar dan melakukan percakapan yang lebih kompleks

Alibaba meluncurkan model AI yang memahami gambar dan melakukan percakapan yang lebih kompleks

Node Sumber: 2849026

Ruang kecerdasan buatan (AI) semakin memanas. Hanya kemarin, Naver Korea Selatan mengumumkan peluncuran HyperClova X, layanan AI generatif baru untuk bersaing dengan ChatGPT. Kini, raksasa internet Tiongkok meluncurkan dua model AI sumber terbuka yang dapat memahami gambar dan melakukan percakapan yang lebih kompleks.

Pada hari Jumat, Alibaba meluncurkan model AI baru yang dirancang untuk memahami gambar dan terlibat dalam percakapan yang lebih rumit dibandingkan dengan penawaran mereka sebelumnya. Rilis ini terjadi pada saat persaingan global yang ketat untuk mendapatkan kepemimpinan teknologi.

Perusahaan teknologi Tiongkok ini menyatakan bahwa dua model baru mereka, yang disebut Qwen-VL dan Qwen-VL-Chat, akan tersedia sebagai alat sumber terbuka, artinya para peneliti, pendidik, dan bisnis di seluruh dunia dapat menggunakan model ini untuk mengembangkan teknologi mereka. memiliki aplikasi AI tanpa perlu melatih sistem masing-masing. Pendekatan ini tidak hanya menghemat waktu tetapi juga mengurangi biaya secara signifikan.

Berita ini muncul hanya sebulan setelah Alibaba meluncurkan Tongyi Wanxiang, alat pembuat gambar AI yang bersaing dengan DALL-E & Midjourney OpenAI. Tongyi Wanxiang, diluncurkan oleh divisi cloud Alibaba, memungkinkan pengguna memasukkan perintah teks dalam bahasa Mandarin atau Inggris, dan alat AI menghasilkan gambar yang sesuai dalam berbagai gaya, seperti sketsa atau kartun 3D. Saat ini, alat tersebut tersedia untuk pengujian beta secara eksklusif untuk pelanggan perusahaan di Tiongkok.

Kedua model bahasa AI baru ini juga dikembangkan oleh unit cloud perusahaan, Alibaba Cloud. Berdasarkan laporan, raksasa teknologi tersebut mengatakan bahwa Qwen-VL dirancang untuk menjadi evolusi lanjutan dari model 7 miliar parameternya, Tongyi Qianwen. Model dinamis ini menampilkan kemampuan luar biasa untuk menangani perintah gambar dan teks dengan mudah. Keserbagunaannya mulai dari menjawab berbagai pertanyaan terkait berbagai gambar secara efektif hingga membuat teks menawan untuk gambar tersebut.

Alibaba juga menambahkan bahwa Qwen-VL dapat melakukan banyak tugas secara bersamaan. Tidak hanya dapat menjawab pertanyaan terbuka terkait berbagai gambar tetapi juga dapat membuat keterangan untuk gambar tersebut.

Tapi bintang sebenarnya dari acara ini adalah Qwen-VL-Chat. AI ini menangani interaksi yang lebih rumit, seperti membandingkan beberapa gambar dan menangani serangkaian pertanyaan. Tidak berhenti disitu saja—Alibaba membanggakan bahwa ia dapat memutar cerita, menyulap gambar berdasarkan foto yang dikirimkan pengguna, dan bahkan memecahkan masalah matematika yang disajikan dalam gambar.

Contoh keren yang mereka berikan adalah papan nama rumah sakit dalam bahasa Mandarin. Qwen-VL-Chat dapat memecahkan kodenya dan memberikan informasi tentang lokasi berbagai departemen rumah sakit.

Sementara itu, sebagian besar “kejeniusan” AI saat ini biasanya berkaitan dengan teks. Tapi waktu sedang berubah. Qwen-VL-Chat dan versi terbaru ChatGPT OpenAI mengguncang segalanya, merespons gambar dengan teks dengan cara yang cukup mengesankan. Ini seperti AI yang belajar berbicara bahasa visual baru!


Stempel Waktu:

Lebih dari TechStartup