AI Baru Belajar Bahasa Melalui Mata dan Telinga Balita

AI Baru Belajar Bahasa Melalui Mata dan Telinga Balita

Node Sumber: 3092738

Sam berusia enam bulan ketika dia pertama kali memasangkan kamera ringan ke dahinya.

Selama satu setengah tahun ke depan, kamera menangkap cuplikan kehidupannya. Dia merangkak mengelilingi hewan peliharaan keluarganya, menyaksikan orang tuanya memasak, dan menangis di teras depan bersama nenek. Sementara itu, kamera merekam semua yang didengarnya.

Apa yang terdengar seperti video rumahan balita yang lucu sebenarnya adalah sebuah konsep yang berani: Bisakah AI belajar bahasa seperti anak kecil? Hasilnya juga dapat mengungkap betapa cepatnya anak-anak memperoleh bahasa dan konsep pada usia dini.

Sebuah studi baru in Ilmu menjelaskan bagaimana peneliti menggunakan rekaman Sam untuk melatih AI agar memahami bahasa. Hanya dengan sebagian kecil dari pengalaman hidup seorang anak selama setahun, AI mampu memahami konsep dasar—misalnya, bola, kupu-kupu, atau ember.

AI, yang disebut Child's View for Contrastive Learning (CVCL), secara kasar meniru cara kita belajar saat balita dengan mencocokkan penglihatan dan audio. Ini adalah pendekatan yang sangat berbeda dari yang diambil oleh model bahasa besar seperti ini di belakang ChatGPT atau Bard. Kemampuan luar biasa para model ini dalam membuat esai, puisi, atau bahkan skrip podcast telah menggemparkan dunia. Namun mereka perlu mencerna triliunan kata dari berbagai artikel berita, skenario, dan buku untuk mengembangkan keterampilan ini.

Sebaliknya, anak-anak belajar dengan masukan yang jauh lebih sedikit dan dengan cepat menggeneralisasi pembelajaran mereka seiring pertumbuhan mereka. Para ilmuwan telah lama bertanya-tanya apakah AI dapat menangkap kemampuan ini hanya dengan pengalaman sehari-hari.

“Kami menunjukkan, untuk pertama kalinya, bahwa jaringan saraf yang dilatih berdasarkan masukan realistis perkembangan dari seorang anak dapat belajar menghubungkan kata-kata dengan bagian visualnya,” penulis studi Dr. Wai Keen Vong di Pusat Ilmu Data NYU mengatakan dalam siaran pers tentang penelitian.

Anak Bermain

Anak-anak dengan mudah menyerap kata-kata dan maknanya dari pengalaman sehari-hari.

Pada usia enam bulan, mereka mulai menghubungkan kata-kata dengan apa yang mereka lihat—misalnya, benda berbentuk bulat yang dapat dipantulkan adalah sebuah “bola”. Pada usia dua tahun, mereka mengetahui sekitar 300 kata dan konsepnya.

Para ilmuwan telah lama memperdebatkan bagaimana hal ini terjadi. Sebuah teori mengatakan anak-anak belajar mencocokkan apa yang mereka lihat dengan apa yang mereka dengar. Pendapat lain menyatakan bahwa pembelajaran bahasa memerlukan pengalaman dunia yang lebih luas, seperti interaksi sosial dan kemampuan bernalar.

Sulit untuk membedakan ide-ide ini dengan tes kognitif tradisional pada balita. Namun kita mungkin mendapatkan jawabannya dengan melatih AI melalui mata dan telinga seorang anak.

M3GAN?

Studi baru ini memanfaatkan sumber daya video kaya yang disebut SAYCam, yang mencakup data yang dikumpulkan dari tiga anak berusia antara 6 dan 32 bulan menggunakan kamera mirip GoPro yang diikatkan di dahi mereka.

Dua kali seminggu, kamera merekam sekitar satu jam rekaman dan audio saat mereka merawat, merangkak, dan bermain. Semua dialog yang terdengar ditranskripsikan menjadi “ucapan”—kata atau kalimat yang diucapkan sebelum pembicara atau percakapan berubah. Hasilnya adalah kekayaan data multimedia dari sudut pandang bayi dan balita.

Untuk sistem baru, tim merancang dua jaringan saraf dengan “hakim” untuk mengoordinasikannya. Ada yang menerjemahkan visual orang pertama ke dalam adegan siapa dan apa—apakah itu ibu yang memasak? Kata-kata dan makna lainnya diuraikan dari rekaman audio.

Kedua sistem tersebut kemudian dikorelasikan dalam waktu sehingga AI belajar mengasosiasikan visual yang benar dengan kata-kata. Misalnya, AI belajar mencocokkan gambar bayi dengan kata-kata “Lihat, ada bayi” atau gambar bola yoga dengan “Wow, itu bola besar”. Dengan latihan, lambat laun ia belajar memisahkan konsep bola yoga dari bayi.

“Ini memberi model petunjuk mengenai kata mana yang harus diasosiasikan dengan objek tertentu,” kata Vong.

Tim kemudian melatih AI melalui video dari sekitar satu setengah tahun kehidupan Sam. Jika digabungkan, jumlahnya mencapai lebih dari 600,000 bingkai video, dipasangkan dengan 37,500 transkripsi ucapan. Meskipun jumlahnya terdengar besar, jumlah tersebut kira-kira hanya satu persen dari kehidupan Sam sehari-hari dan sangat kecil jika dibandingkan dengan jumlah data yang digunakan untuk melatih model bahasa berukuran besar.

Bayi AI Sedang Naik Daun

Untuk menguji sistem tersebut, tim mengadaptasi tes kognitif umum yang digunakan untuk mengukur kemampuan bahasa anak-anak. Mereka menunjukkan kepada AI empat gambar baru—kucing, tempat tidur bayi, bola, dan halaman rumput—dan menanyakan yang mana bola tersebut.

Secara keseluruhan, AI mengambil gambar yang benar sebanyak 62 persen. Performanya hampir menyamai algoritme canggih yang dilatih pada 400 juta pasangan gambar dan teks dari web—data yang jauh lebih banyak dibandingkan yang digunakan untuk melatih AI dalam penelitian ini. Mereka menemukan bahwa menghubungkan gambar video dengan audio sangatlah penting. Saat tim mengacak bingkai video dan ucapan terkait, model tersebut benar-benar rusak.

AI juga bisa “berpikir” di luar kotak dan menggeneralisasi situasi baru.

Dalam tes lain, ia dilatih berdasarkan sudut pandang Sam terhadap buku bergambar saat orang tuanya berkata, “Itu bebek dan kupu-kupu.” Kemudian, dia mengangkat mainan kupu-kupu ketika ditanya, “Bisakah kamu membuat kupu-kupu?” Saat ditantang dengan gambar kupu-kupu beraneka warna—yang belum pernah dilihat AI sebelumnya—AI mendeteksi tiga dari empat contoh “kupu-kupu” dengan akurasi di atas 80 persen.

Tidak semua konsep kata mendapat skor yang sama. Misalnya, “sendok” adalah sebuah perjuangan. Tapi ada baiknya menunjukkan hal itu, seperti hal yang sulit reCAPTCHA, gambar pelatihannya sulit diuraikan bahkan oleh manusia.

Growing Pains

Grafik AI dibangun berdasarkan kemajuan terkini dalam pembelajaran mesin multimoda, yang menggabungkan teks, gambar, audio, atau video untuk melatih otak mesin.

Dengan masukan dari pengalaman seorang anak saja, algoritme ini mampu menangkap bagaimana kata-kata berhubungan satu sama lain dan menghubungkan kata-kata dengan gambar dan konsep. Hal ini menunjukkan bahwa balita yang mendengar kata-kata dan mencocokkannya dengan apa yang mereka lihat akan membantu membangun kosa kata mereka.

Itu tidak berarti proses otak lainnya, seperti isyarat sosial dan penalaran, tidak ikut berperan. Menambahkan komponen-komponen ini ke dalam algoritma berpotensi memperbaikinya, tulis para penulis.

Tim berencana untuk melanjutkan percobaan. Untuk saat ini, AI “bayi” hanya belajar dari bingkai gambar diam dan memiliki kosakata yang sebagian besar terdiri dari kata benda. Mengintegrasikan segmen video ke dalam pelatihan dapat membantu AI mempelajari kata kerja karena video menyertakan gerakan.

Menambahkan intonasi pada data ucapan juga dapat membantu. Anak-anak belajar sejak dini bahwa “hmm” seorang ibu dapat memiliki arti yang sangat berbeda tergantung pada nadanya.

Namun secara keseluruhan, menggabungkan AI dan pengalaman hidup adalah metode baru yang ampuh untuk mempelajari otak mesin dan manusia. Hal ini dapat membantu kita mengembangkan model AI baru yang dapat belajar seperti anak-anak, dan berpotensi membentuk kembali pemahaman kita tentang cara otak kita mempelajari bahasa dan konsep.

Kredit Gambar: Wai Keen Vong

Stempel Waktu:

Lebih dari Hub Singularity