AI vừa học được ngôn ngữ qua mắt và tai của một đứa trẻ

Được xuất bản lại bởi Plato

Người theo dõi: 0

Sam được sáu tháng tuổi khi lần đầu tiên cậu đeo một chiếc máy ảnh nhẹ lên trán.

Trong một năm rưỡi tiếp theo, máy ảnh đã ghi lại những khoảnh khắc trong cuộc đời anh ấy. Cậu bé bò quanh thú cưng của gia đình, xem bố mẹ nấu ăn và khóc trước hiên nhà với bà. Trong lúc đó, camera đã ghi lại tất cả những gì anh nghe được.

Nghe có vẻ như một video gia đình dễ thương dành cho trẻ mới biết đi thực ra lại là một khái niệm táo bạo: AI có thể học ngôn ngữ như một đứa trẻ không? Kết quả cũng có thể tiết lộ cách trẻ em tiếp thu ngôn ngữ và khái niệm nhanh chóng ngay từ khi còn nhỏ.

Một nghiên cứu mới in Khoa học mô tả cách các nhà nghiên cứu sử dụng bản ghi âm của Sam để huấn luyện AI hiểu ngôn ngữ. Chỉ với một phần nhỏ trải nghiệm cuộc sống của một đứa trẻ trong hơn một năm, AI đã có thể nắm bắt được các khái niệm cơ bản—ví dụ: một quả bóng, một con bướm hoặc một cái xô.

AI, được gọi là Quan điểm của trẻ về học tập tương phản (CVCL), gần giống cách chúng ta học khi còn nhỏ bằng cách kết hợp hình ảnh với âm thanh. Đó là một cách tiếp cận rất khác so với cách tiếp cận của các mô hình ngôn ngữ lớn như các mô hình đằng sau ChatGPT hoặc Bard. Khả năng kỳ lạ của những người mẫu này trong việc tạo ra các bài tiểu luận, thơ ca hoặc thậm chí là kịch bản podcast đã khiến cả thế giới phải kinh ngạc. Nhưng họ cần phải tiếp thu hàng nghìn tỷ từ từ nhiều loại tin tức, kịch bản phim và sách để phát triển những kỹ năng này.

Ngược lại, trẻ em học với ít đầu vào hơn và nhanh chóng khái quát hóa việc học của mình khi chúng lớn lên. Các nhà khoa học từ lâu đã tự hỏi liệu AI có thể nắm bắt được những khả năng này chỉ bằng những trải nghiệm hàng ngày hay không.

Tác giả nghiên cứu, Tiến sĩ Wai Keen Vong tại Trung tâm Khoa học Dữ liệu của NYU: “Lần đầu tiên, chúng tôi cho thấy rằng một mạng lưới thần kinh được đào tạo về đầu vào thực tế đang phát triển này từ một đứa trẻ có thể học cách liên kết các từ với các từ tương ứng trực quan của chúng”. cho biết trong một thông cáo báo chí về nghiên cứu.

Trò chơi trẻ con

Trẻ em dễ dàng tiếp thu các từ và ý nghĩa của chúng từ kinh nghiệm hàng ngày.

Khi mới sáu tháng tuổi, trẻ bắt đầu kết nối các từ với những gì chúng nhìn thấy—ví dụ: một vật tròn có thể nảy được gọi là “quả bóng”. Khi được hai tuổi, trẻ biết khoảng 300 từ và khái niệm của chúng.

Các nhà khoa học từ lâu đã tranh luận về việc điều này xảy ra như thế nào. Một giả thuyết cho rằng trẻ học cách kết hợp những gì chúng nhìn thấy với những gì chúng nghe thấy. Một người khác cho rằng việc học ngôn ngữ đòi hỏi trải nghiệm rộng hơn về thế giới, chẳng hạn như tương tác xã hội và khả năng suy luận.

Thật khó để phân biệt những ý tưởng này bằng các bài kiểm tra nhận thức truyền thống ở trẻ mới biết đi. Nhưng chúng ta có thể nhận được câu trả lời bằng cách huấn luyện AI thông qua đôi mắt và đôi tai của một đứa trẻ.

M3GAN?

Nghiên cứu mới đã khai thác một nguồn tài nguyên video phong phú có tên là SAYCam, bao gồm dữ liệu được thu thập từ ba đứa trẻ từ 6 đến 32 tháng tuổi sử dụng máy ảnh giống GoPro đeo trên trán.

Hai lần mỗi tuần, các camera ghi lại khoảng một giờ cảnh quay và âm thanh khi chúng bú, bò và chơi. Tất cả các đoạn hội thoại nghe được đều được chuyển thành “lời nói”—các từ hoặc câu được nói trước khi người nói hoặc cuộc trò chuyện thay đổi. Kết quả là có rất nhiều dữ liệu đa phương tiện từ góc nhìn của trẻ sơ sinh và trẻ mới biết đi.

Đối với hệ thống mới, nhóm đã thiết kế hai mạng lưới thần kinh với một “thẩm phán” để điều phối chúng. Một người đã dịch hình ảnh ở góc nhìn thứ nhất thành ai và cái gì của một cảnh—đó có phải là một người mẹ đang nấu ăn không? Những người còn lại giải mã các từ và ý nghĩa từ bản ghi âm.

Hai hệ thống sau đó được tương quan về mặt thời gian để AI học cách liên kết hình ảnh chính xác với từ ngữ. Ví dụ: AI đã học cách ghép hình ảnh một em bé với dòng chữ “Nhìn này, có một em bé” hoặc hình ảnh quả bóng yoga với “Ồ, đó là một quả bóng lớn”. Qua quá trình luyện tập, nó dần dần học được cách tách biệt khái niệm quả bóng yoga khỏi em bé.

Vong cho biết: “Điều này cung cấp cho mô hình manh mối về việc từ nào nên được liên kết với đối tượng nào”.

Sau đó, nhóm đã huấn luyện AI trên các video trong khoảng một năm rưỡi cuộc đời của Sam. Cùng với nhau, nó lên tới hơn 600,000 khung hình video, kết hợp với 37,500 câu nói được phiên âm. Mặc dù con số nghe có vẻ lớn nhưng chúng chỉ chiếm khoảng XNUMX% thời gian thức giấc hàng ngày của Sam so với lượng dữ liệu được sử dụng để đào tạo các mô hình ngôn ngữ lớn.

AI bé nhỏ đang trỗi dậy

Để kiểm tra hệ thống, nhóm nghiên cứu đã điều chỉnh một bài kiểm tra nhận thức chung dùng để đo khả năng ngôn ngữ của trẻ. Họ cho AI xem bốn hình ảnh mới—một con mèo, một cái nôi, một quả bóng và một bãi cỏ—và hỏi cái nào là quả bóng.

Nhìn chung, AI đã chọn đúng hình ảnh trong khoảng 62% thời gian. Hiệu suất gần như tương đương với một thuật toán tiên tiến được đào tạo trên 400 triệu cặp hình ảnh và văn bản từ web — có lượng dữ liệu lớn hơn dữ liệu được sử dụng để đào tạo AI trong nghiên cứu. Họ nhận thấy rằng việc liên kết hình ảnh video với âm thanh là rất quan trọng. Khi nhóm xáo trộn các khung hình video và các câu nói liên quan của họ, mô hình đã hoàn toàn bị hỏng.

AI cũng có thể “suy nghĩ” sáng tạo và khái quát hóa các tình huống mới.

Trong một bài kiểm tra khác, nó được huấn luyện dựa trên góc nhìn của Sam về một cuốn sách tranh khi cha mẹ cậu ấy nói: “Đó là một con vịt và một con bướm”. Sau đó, cậu bé giơ một con bướm đồ chơi lên khi được hỏi: “Con có thể làm con bướm được không?” Khi thử thách với những hình ảnh con bướm nhiều màu—những hình ảnh mà AI chưa từng thấy trước đây—nó đã phát hiện ba trong số bốn ví dụ về “con bướm” với độ chính xác trên 80%.

Không phải tất cả các khái niệm từ đều có điểm giống nhau. Ví dụ, “cái thìa” là một cuộc đấu tranh. Nhưng cần phải chỉ ra rằng, giống như một điều khó khăn reCAPTCHA, những hình ảnh huấn luyện rất khó giải mã ngay cả đối với con người.

Growing Pains

Sản phẩm AI được xây dựng dựa trên những tiến bộ gần đây trong học máy đa phương thức, kết hợp văn bản, hình ảnh, âm thanh hoặc video để huấn luyện bộ não máy.

Chỉ với dữ liệu đầu vào từ trải nghiệm của một đứa trẻ, thuật toán có thể nắm bắt được mối liên hệ giữa các từ và liên kết các từ với hình ảnh và khái niệm. Nó gợi ý rằng đối với trẻ mới biết đi, việc nghe các từ và kết hợp chúng với những gì chúng nhìn thấy sẽ giúp xây dựng vốn từ vựng của chúng.

Điều đó không có nghĩa là các quá trình khác của não, chẳng hạn như tín hiệu xã hội và lý luận không phát huy tác dụng. Các tác giả viết rằng việc thêm các thành phần này vào thuật toán có thể cải thiện nó.

Nhóm dự định tiếp tục thử nghiệm. Hiện tại, AI “em bé” chỉ học từ khung hình tĩnh và có vốn từ vựng chủ yếu bao gồm các danh từ. Việc tích hợp các phân đoạn video vào quá trình đào tạo có thể giúp AI học động từ vì video bao gồm chuyển động.

Việc thêm ngữ điệu vào dữ liệu giọng nói cũng có thể hữu ích. Trẻ em sớm học được rằng tiếng “hmm” của mẹ có thể mang nhiều ý nghĩa khác nhau tùy theo giọng điệu.

Nhưng nhìn chung, việc kết hợp AI và trải nghiệm cuộc sống là một phương pháp mới mạnh mẽ để nghiên cứu cả bộ não máy móc và con người. Nó có thể giúp chúng ta phát triển các mô hình AI mới có khả năng học hỏi như trẻ em và có khả năng định hình lại sự hiểu biết của chúng ta về cách bộ não học ngôn ngữ và khái niệm.

Tín dụng hình ảnh: Wai Keen Vong