Menelusuri evolusi ide revolusioner: GPT-4 dan AI multimodal

Menelusuri evolusi ide revolusioner: GPT-4 dan AI multimodal

Node Sumber: 2020237

Apa itu AI multimodal? Itu pertanyaan yang sering kita dengar akhir-akhir ini, bukan? Baik saat istirahat makan siang, di grup obrolan kantor, atau saat mengobrol dengan teman di malam hari, sepertinya semua orang ramai membicarakan GPT-4.

Rilis GPT-4 baru-baru ini telah memicu kehebohan dan spekulasi di dalam komunitas AI dan sekitarnya. Sebagai tambahan terbaru untuk jajaran model bahasa AI OpenAI yang mengesankan, GPT-4 menawarkan berbagai kemampuan canggih, khususnya di ranah AI multimodal.

Dengan kemampuan untuk memproses dan mengintegrasikan input dari berbagai modalitas, seperti teks, gambar, dan suara, GPT-4 merupakan terobosan signifikan di bidang AI dan telah membangkitkan minat dan perhatian yang cukup besar dari para peneliti, pengembang, dan peminat.

Sejak rilis GPT-4, semua orang berdiskusi tentang kemungkinan yang ditawarkan oleh AI multimodal. Mari kita jelaskan topik ini dengan kembali ke 6 bulan sebelumnya terlebih dahulu.

6 bulan sebelumnya: Membahas AI multimodal

Dalam wawancara podcast berjudul “AI untuk Era Selanjutnya, ” CEO OpenAI Sam Altman membagikan wawasannya tentang kemajuan teknologi AI yang akan datang. Salah satu yang menarik dari percakapan tersebut adalah pengungkapan Altman bahwa model multimoda sudah di depan mata.

Istilah "multimodal" mengacu pada kemampuan AI untuk berfungsi dalam berbagai mode, termasuk teks, gambar, dan suara.

Interaksi OpenAI dengan manusia terbatas pada input teks, baik melalui Dall-E atau ChatGPT. Namun, AI multimodal akan mampu berinteraksi melalui ucapan, memungkinkannya mendengarkan perintah, memberikan informasi, dan bahkan melakukan tugas. Dengan dirilisnya GPT-4, ini mungkin berubah untuk selamanya.

Saya pikir kita akan mendapatkan model multimoda tidak lama lagi, dan itu akan membuka hal-hal baru. Saya pikir orang-orang melakukan pekerjaan luar biasa dengan agen yang dapat menggunakan komputer untuk melakukan sesuatu untuk Anda, menggunakan program dan ide antarmuka bahasa di mana Anda mengatakan bahasa alami - apa yang Anda inginkan dalam dialog semacam ini bolak-balik. Anda dapat mengulangi dan menyempurnakannya, dan komputer melakukannya untuk Anda. Anda melihat beberapa di antaranya dengan DALL-E dan CoPilot di awal.

-Altman

Apa itu AI multimodal: Memahami GPT-4
Istilah "multimodal" mengacu pada kemampuan AI untuk berfungsi dalam berbagai mode, termasuk teks, gambar, dan suara

Meskipun Altman tidak secara eksplisit mengkonfirmasi bahwa GPT-4 akan menjadi multimodal pada saat itu, dia menyarankan bahwa teknologi seperti itu akan segera hadir dan akan tiba dalam waktu dekat. Salah satu aspek menarik dari visinya untuk AI multimodal adalah potensinya untuk menciptakan model bisnis baru yang saat ini tidak memungkinkan.

Altman menggambar paralel dengan platform seluler, yang menciptakan banyak peluang untuk usaha dan pekerjaan baru. Dengan cara yang sama, platform AI multimodal dapat membuka berbagai kemungkinan inovatif dan mengubah cara kita hidup dan bekerja. Ini adalah prospek menarik yang menggarisbawahi kekuatan transformatif AI dan kemampuannya untuk membentuk kembali dunia kita dengan cara yang hanya bisa kita bayangkan.

…Saya pikir ini akan menjadi tren besar, dan bisnis yang sangat besar akan dibangun dengan ini sebagai antarmuka, dan lebih umum [menurut saya] bahwa model yang sangat kuat ini akan menjadi salah satu platform teknologi baru yang asli, yang kami miliki tidak benar-benar sejak mobile. Dan selalu ada ledakan perusahaan baru setelahnya, jadi itu keren. Saya pikir kita akan membuat model multimodal yang sebenarnya berfungsi. Jadi bukan hanya teks dan gambar tetapi setiap modalitas yang Anda miliki dalam satu model dapat dengan mudah berpindah antar hal.

-Altman

AI yang benar-benar belajar mandiri

Salah satu bidang yang relatif mendapat sedikit perhatian dalam bidang penelitian AI adalah upaya untuk menciptakan AI yang belajar mandiri. Sementara model saat ini mampu memahami secara spontan, atau "kemunculan", di mana kemampuan baru muncul dari data pelatihan yang meningkat, AI yang benar-benar belajar mandiri akan mewakili lompatan besar ke depan.

Altman OpenAI berbicara tentang AI yang dapat mempelajari dan meningkatkan kemampuannya sendiri, daripada bergantung pada ukuran data pelatihannya. AI semacam ini akan melampaui paradigma versi perangkat lunak tradisional, di mana perusahaan merilis pembaruan tambahan, alih-alih tumbuh dan berkembang secara mandiri.

Meskipun Altman tidak menyarankan bahwa GPT-4 akan memiliki kemampuan ini, dia menyarankan bahwa itu adalah sesuatu yang sedang dikerjakan oleh OpenAI dan sepenuhnya dalam bidang kemungkinan. Gagasan AI belajar mandiri adalah ide yang menarik yang dapat memiliki implikasi luas untuk masa depan AI dan dunia kita.


Visual ChatGPT menghadirkan pembuatan gambar AI ke chatbot populer


Kembali ke masa kini: GPT-4 dirilis

Rilis GPT-4 yang sangat dinantikan sekarang tersedia untuk beberapa pelanggan Plus, menampilkan model bahasa multimodal baru yang menerima teks, ucapan, gambar, dan video sebagai masukan dan memberikan jawaban berbasis teks.

OpenAI telah menggembar-gemborkan GPT-4 sebagai tonggak penting dalam upayanya untuk meningkatkan pembelajaran mendalam, mencatat bahwa meskipun mungkin tidak mengungguli manusia dalam banyak skenario dunia nyata, OpenAI memberikan kinerja tingkat manusia pada berbagai tolok ukur profesional dan akademis.

Popularitas ChatGPT, yang memanfaatkan teknologi AI GPT-3 untuk menghasilkan respons mirip manusia terhadap permintaan pencarian berdasarkan data yang dikumpulkan dari internet, telah melonjak sejak debutnya pada 30 November.

Peluncuran ChatGPT, sebuah chatbot percakapan, telah memicu perlombaan senjata AI antara Microsoft dan Google, keduanya bertujuan untuk mengintegrasikan teknologi AI generatif pembuat konten ke dalam pencarian internet dan produk produktivitas kantor mereka. Rilis GPT-4 dan persaingan yang sedang berlangsung di antara raksasa teknologi menyoroti semakin pentingnya AI dan potensinya untuk mengubah cara kita berinteraksi dengan teknologi.

Untuk lebih memahami topik ini, kami mengundang Anda untuk mempelajari diskusi yang lebih dalam dan lebih teknis tentang AI multimodal.

Apa itu AI multimodal: Memahami GPT-4
AI multimodal adalah jenis kecerdasan buatan yang memiliki kemampuan untuk memproses dan memahami input dari mode atau modalitas yang berbeda

Apa itu AI multimodal?

AI multimodal adalah jenis kecerdasan buatan yang memiliki kemampuan untuk memproses dan memahami masukan dari berbagai mode atau modalitas, termasuk teks, ucapan, gambar, dan video. Ini berarti dapat mengenali dan menginterpretasikan berbagai bentuk data, bukan hanya satu jenis, yang membuatnya lebih fleksibel dan dapat disesuaikan dengan situasi yang berbeda. Intinya, AI multimodal dapat "melihat", "mendengar", dan "memahami" seperti manusia, memungkinkannya berinteraksi dengan dunia dengan cara yang lebih alami dan intuitif.

Aplikasi AI multimodal

Kemampuan AI multimodal sangat luas dan luas. Berikut adalah beberapa contoh yang dapat dilakukan AI multimodal:

  • Pengenalan suara: AI multimodal dapat memahami dan mentranskripsikan bahasa lisan, memungkinkannya berinteraksi dengan pengguna melalui perintah suara dan pemrosesan bahasa alami.
  • Pengenalan gambar dan video: AI multimodal dapat menganalisis dan menginterpretasikan data visual, seperti gambar dan video, untuk mengidentifikasi objek, orang, dan aktivitas.
  • Analisis tekstual: AI multimodal dapat memproses dan memahami teks tertulis, termasuk pemrosesan bahasa alami, analisis sentimen, dan terjemahan bahasa.
  • Integrasi multimoda: Multimodal AI dapat menggabungkan input dari berbagai modalitas untuk membentuk pemahaman yang lebih lengkap tentang suatu situasi. Misalnya, dapat menggunakan isyarat visual dan audio untuk mengenali emosi seseorang.

Bagaimana cara kerja AI multimodal?

Jaringan saraf multimodal biasanya terdiri dari beberapa jaringan saraf unimodal, dengan model audiovisual menjadi contoh dari dua jaringan tersebut – satu untuk data visual dan satu untuk data audio. Jaringan individu ini memproses input masing-masing secara terpisah, dalam proses yang dikenal sebagai pengkodean.

Setelah pengkodean unimodal selesai, informasi yang diekstraksi dari masing-masing model perlu digabungkan. Berbagai teknik fusi telah diusulkan untuk tujuan ini, mulai dari rangkaian dasar hingga penggunaan mekanisme atensi. Penggabungan data multimoda merupakan faktor penting dalam mencapai keberhasilan dalam model ini.

Setelah fusi, tahap terakhir melibatkan jaringan "keputusan" yang menerima informasi yang disandikan dan digabungkan dan dilatih untuk tugas tertentu.

Pada intinya, arsitektur multimodal terdiri dari tiga komponen penting – pembuat enkode unimodal untuk setiap modalitas input, jaringan fusi yang menggabungkan fitur dari berbagai modalitas, dan pengklasifikasi yang membuat prediksi berdasarkan data gabungan.

Bandingkan dengan model AI saat ini

Dibandingkan dengan model AI tradisional yang hanya dapat menangani satu jenis data dalam satu waktu, AI multimodal memiliki beberapa keunggulan, antara lain:

  • fleksibilitas: AI multimodal dapat menangani berbagai jenis data, membuatnya lebih mudah beradaptasi dengan situasi dan kasus penggunaan yang berbeda.
  • Interaksi alami: Dengan mengintegrasikan berbagai modalitas, AI multimodal dapat berinteraksi dengan pengguna dengan cara yang lebih alami dan intuitif, serupa dengan cara manusia berkomunikasi.
  • Akurasi yang ditingkatkan: Dengan menggabungkan input dari berbagai modalitas, AI multimodal dapat meningkatkan akurasi prediksi dan klasifikasinya.

Berikut tabel ringkasan yang membandingkan berbagai model AI:

Model AI Tipe data Aplikasi
AI berbasis teks Teks Pemrosesan Bahasa Alami, Chatbots, Analisis Sentimen
AI berbasis gambar Images Deteksi Objek, Klasifikasi Gambar, Pengenalan Wajah
AI berbasis ucapan Audio Asisten Suara, Pengenalan Ucapan, Transkripsi
AI multimodal Teks, Gambar, Audio, Video Interaksi Alami, Pemahaman Kontekstual, Peningkatan Akurasi

Mengapa multimodal AI penting?

AI multimodal penting karena berpotensi mengubah cara kita berinteraksi dengan teknologi dan mesin. Dengan mengaktifkan interaksi yang lebih alami dan intuitif melalui berbagai modalitas, AI multimodal dapat menciptakan pengalaman pengguna yang lebih mulus dan personal. Ini dapat sangat bermanfaat di bidang-bidang seperti:

  • Kesehatan: AI multimodal dapat membantu dokter dan pasien berkomunikasi lebih efektif, terutama bagi mereka yang memiliki mobilitas terbatas atau bukan penutur asli suatu bahasa.
  • Pendidikan: AI multimodal dapat meningkatkan hasil pembelajaran dengan memberikan instruksi yang lebih personal dan interaktif yang menyesuaikan dengan kebutuhan individu dan gaya belajar siswa.
  • Hiburan: Multimodal AI dapat menciptakan pengalaman yang lebih imersif dan menarik dalam video game, film, dan bentuk media lainnya.

Keuntungan AI multimodal

Berikut adalah beberapa keuntungan utama AI multimodal:

  • Pemahaman kontekstual: Dengan menggabungkan input dari berbagai modalitas, AI multimodal dapat memperoleh pemahaman situasi yang lebih lengkap, termasuk konteks dan makna di balik data.
  • Interaksi alami: Dengan mengaktifkan interaksi yang lebih alami dan intuitif melalui berbagai modalitas, AI multimodal dapat menciptakan pengalaman pengguna yang lebih mulus dan personal.
  • Akurasi yang ditingkatkan: Dengan mengintegrasikan berbagai sumber data, AI multimodal dapat meningkatkan akurasi prediksi dan klasifikasinya.

Membuat kecerdasan buatan 101


Potensi untuk menciptakan model bisnis baru

Multimodal AI juga berpotensi menciptakan model bisnis dan aliran pendapatan baru. Berikut beberapa contohnya:

  • Asisten suara: AI multimodal dapat mengaktifkan asisten suara yang lebih canggih dan personal yang dapat berinteraksi dengan pengguna melalui ucapan, teks, dan tampilan visual.
  • Rumah pintar: AI multimodal dapat menciptakan rumah yang lebih cerdas dan responsif yang dapat memahami dan beradaptasi dengan preferensi dan perilaku pengguna.
  • Asisten belanja virtual: AI multimodal dapat membantu pelanggan menavigasi dan mempersonalisasi pengalaman belanja mereka melalui interaksi suara dan visual.

Masa depan teknologi AI

Masa depan teknologi AI sangat menarik, dengan para peneliti mengeksplorasi cara-cara baru untuk membuat model AI yang lebih maju dan canggih. Berikut adalah beberapa area fokus utama:

  • AI belajar mandiri: Peneliti AI bertujuan untuk menciptakan AI yang dapat belajar dan berkembang dengan sendirinya, tanpa perlu campur tangan manusia. Hal ini dapat menghasilkan model AI yang lebih mudah beradaptasi dan tangguh yang dapat menangani berbagai tugas dan situasi.
  • AI multimoda: Seperti yang telah dibahas sebelumnya, AI multimodal memiliki potensi untuk mengubah cara kita berinteraksi dengan teknologi dan mesin. Pakar AI sedang berupaya menciptakan model AI multimodal yang lebih canggih dan serbaguna yang dapat memahami dan memproses masukan dari berbagai modalitas.
  • Etika dan tata kelola: Saat AI menjadi lebih kuat dan ada di mana-mana, penting untuk memastikan bahwa itu digunakan secara etis dan bertanggung jawab. Peneliti AI sedang mencari cara untuk menciptakan sistem AI yang lebih transparan dan akuntabel yang selaras dengan nilai dan prioritas manusia.

Bagaimana peneliti AI bertujuan untuk menciptakan AI yang dapat belajar dengan sendirinya?

Peneliti AI sedang mengeksplorasi beberapa pendekatan untuk menciptakan AI yang dapat belajar dengan sendirinya. Salah satu bidang penelitian yang menjanjikan disebut pembelajaran penguatan, yang melibatkan pengajaran model AI untuk membuat keputusan dan mengambil tindakan berdasarkan umpan balik dari lingkungan. Pendekatan lain disebut pembelajaran tanpa pengawasan, yang melibatkan pelatihan model AI pada data yang tidak terstruktur dan membiarkannya menemukan pola dan hubungan sendiri. Dengan menggabungkan pendekatan ini dan lainnya, peneliti AI berharap dapat menciptakan model AI yang lebih maju dan otonom yang dapat ditingkatkan dan diadaptasi dari waktu ke waktu.


Semua tentang kecerdasan otonom: Tinjauan menyeluruh


Apa itu AI multimodal: Memahami GPT-4
Sebagai tambahan terbaru untuk jajaran model bahasa AI OpenAI yang mengesankan, GPT-4 menawarkan berbagai kemampuan canggih, khususnya di ranah AI multimodal

Potensi untuk model AI yang lebih baik

Model AI yang ditingkatkan memiliki potensi untuk mengubah cara kita hidup dan bekerja. Berikut adalah beberapa manfaat potensial dari model AI yang ditingkatkan:

  • Akurasi yang ditingkatkan: Karena model AI menjadi lebih canggih dan maju, mereka dapat meningkatkan akurasinya dan mengurangi kesalahan di berbagai bidang seperti diagnosis medis, perkiraan keuangan, dan penilaian risiko.
  • Pengalaman yang lebih dipersonalisasi: Model AI tingkat lanjut dapat mempersonalisasi pengalaman pengguna dengan memahami preferensi dan perilaku individu. Misalnya, layanan streaming musik dapat merekomendasikan lagu berdasarkan riwayat mendengarkan dan suasana hati pengguna.
  • Otomatisasi tugas yang membosankan: AI dapat mengotomatiskan tugas yang membosankan dan berulang, membebaskan waktu bagi manusia untuk fokus pada tugas yang lebih kreatif dan tingkat tinggi.

GPT-4 dan AI multimodal

Setelah banyak antisipasi dan spekulasi, OpenAI akhirnya terungkap tambahan terbaru untuk lini model bahasa AI yang mengesankan. Dijuluki GPT-4, sistem menjanjikan untuk memberikan kemajuan inovatif dalam AI multimodal, meskipun dengan modalitas input yang lebih terbatas daripada yang diperkirakan beberapa orang.

Menurut OpenAI, model ini dapat memproses input tekstual dan visual, memberikan output berbasis teks yang menunjukkan tingkat pemahaman yang canggih. Dengan kemampuannya untuk menginterpretasikan dan mengintegrasikan beberapa mode input secara bersamaan, GPT-4 menandai tonggak penting dalam pengembangan model bahasa AI yang telah membangun momentum selama beberapa tahun sebelum menarik perhatian umum dalam beberapa bulan terakhir.

Model GPT terobosan OpenAI telah menangkap imajinasi komunitas AI sejak publikasi makalah penelitian asli pada tahun 2018. Menyusul pengumuman GPT-2 pada tahun 2019 dan GPT-3 pada tahun 2020, model ini telah dilatih pada kumpulan data teks yang luas, terutama bersumber dari internet, yang kemudian dianalisis pola statistiknya. Pendekatan sederhana namun sangat efektif ini memungkinkan model untuk menghasilkan dan meringkas tulisan, serta melakukan berbagai tugas berbasis teks seperti penerjemahan dan pembuatan kode.

Terlepas dari kekhawatiran atas potensi penyalahgunaan model GPT, OpenAI akhirnya meluncurkan chatbot ChatGPT berdasarkan GPT-3.5 pada akhir tahun 2022, membuat teknologi tersebut dapat diakses oleh khalayak yang lebih luas. Langkah ini memicu gelombang kegembiraan dan antisipasi dalam industri teknologi, dengan pemain besar lainnya seperti Microsoft dan Google dengan cepat mengikuti chatbot AI mereka sendiri, termasuk Bing sebagai bagian dari mesin pencari Bing. Peluncuran chatbot ini menunjukkan semakin pentingnya model GPT dalam membentuk masa depan AI, dan potensinya untuk mengubah cara kita berkomunikasi dan berinteraksi dengan teknologi.

Apa itu AI multimodal: Memahami GPT-4
Menurut OpenAI, GPT-4 dapat memproses input tekstual dan visual, memberikan output berbasis teks yang menunjukkan tingkat pemahaman yang canggih

Seperti yang diharapkan, peningkatan aksesibilitas model bahasa AI telah menghadirkan berbagai masalah dan tantangan untuk berbagai sektor. Misalnya, sistem pendidikan berjuang untuk mengatasi munculnya perangkat lunak yang mampu menghasilkan esai perguruan tinggi berkualitas tinggi. Demikian pula, platform online seperti Stack Overflow dan Clarkesworld telah terpaksa menghentikan pengiriman karena masuknya konten buatan AI yang luar biasa. Bahkan aplikasi awal alat tulis AI dalam jurnalisme mengalami kesulitan.

Terlepas dari tantangan-tantangan ini, beberapa ahli berpendapat bahwa dampak negatifnya agak kurang parah dari perkiraan semula. Seperti halnya teknologi baru, pengenalan model bahasa AI memerlukan pertimbangan dan adaptasi yang cermat untuk memastikan bahwa manfaat teknologi dimaksimalkan sambil meminimalkan efek samping.

Menurut OpenAI, GPT-4 telah menjalani pelatihan keselamatan selama enam bulan, dan dalam pengujian internal, “82 persen lebih kecil kemungkinannya untuk menanggapi permintaan konten yang dilarang dan 40 persen lebih mungkin menghasilkan tanggapan faktual daripada GPT-3.5. ”

Bottom line

Kembali ke topik awal kita: Apa itu AI multimodal? Hanya enam bulan yang lalu, konsep AI multimodal sebagian besar masih terbatas pada bidang spekulasi dan penelitian teoretis. Namun, dengan dirilisnya GPT-4 baru-baru ini, kami sekarang menyaksikan perubahan besar dalam pengembangan dan adopsi teknologi ini. Kemampuan GPT-4, terutama dalam kemampuannya untuk memproses dan mengintegrasikan input dari berbagai modalitas, telah membuka kemungkinan dan peluang dunia baru untuk bidang AI dan seterusnya.

Kita akan melihat perluasan yang cepat dari aplikasi AI multimoda di berbagai industri dan sektor. Dari perawatan kesehatan dan pendidikan hingga hiburan dan permainan, kemampuan model AI untuk memahami dan menanggapi masukan dari berbagai modalitas mengubah cara kita berinteraksi dengan teknologi dan mesin. Teknologi ini memungkinkan kita berkomunikasi dan berkolaborasi dengan mesin dengan cara yang lebih alami dan intuitif, dengan implikasi yang signifikan bagi masa depan pekerjaan dan produktivitas.

Stempel Waktu:

Lebih dari ekonomi data