AI เพิ่งเรียนรู้ภาษาผ่านสายตาและหูของเด็กวัยหัดเดิน

AI เพิ่งเรียนรู้ภาษาผ่านสายตาและหูของเด็กวัยหัดเดิน

โหนดต้นทาง: 3092738

แซมอายุได้หกเดือนเมื่อเขาติดกล้องน้ำหนักเบาไว้บนหน้าผากเป็นครั้งแรก

ในอีกครึ่งปีข้างหน้า กล้องจับภาพตัวอย่างชีวิตของเขา เขาคลานไปรอบๆ สัตว์เลี้ยงของครอบครัว ดูพ่อแม่ทำอาหาร และร้องไห้ที่ระเบียงหน้าบ้านกับคุณยาย ขณะเดียวกันกล้องก็บันทึกทุกสิ่งที่เขาได้ยิน

สิ่งที่ดูเหมือนโฮมวิดีโอสำหรับเด็กวัยหัดเดินที่น่ารักนั้นเป็นแนวคิดที่ท้าทายจริงๆ: AI สามารถเรียนรู้ภาษาเหมือนเด็กได้หรือไม่? ผลลัพธ์ยังเผยให้เห็นว่าเด็กๆ เรียนรู้ภาษาและแนวคิดอย่างรวดเร็วตั้งแต่อายุยังน้อยได้อย่างไร

การศึกษาใหม่ in วิทยาศาสตร์ อธิบายวิธีที่นักวิจัยใช้การบันทึกของ Sam เพื่อฝึก AI ให้เข้าใจภาษา ด้วยประสบการณ์ชีวิตของเด็กคนหนึ่งเพียงเล็กน้อยในหนึ่งปี AI จึงสามารถเข้าใจแนวคิดพื้นฐาน เช่น ลูกบอล ผีเสื้อ หรือถังได้

AI ที่เรียกว่า Child's View for Contrastive Learning (CVCL) เลียนแบบวิธีการเรียนรู้ของเราเมื่อตอนเป็นเด็กวัยหัดเดินโดยการจับคู่ภาพกับเสียง มันเป็นแนวทางที่แตกต่างอย่างมากจากการใช้โมเดลภาษาขนาดใหญ่เช่นนี้ ด้านหลัง ChatGPT หรือ Bard. ความสามารถอันน่าทึ่งของโมเดลเหล่านี้ในการประดิษฐ์เรียงความ บทกวี หรือแม้แต่สคริปต์พอดแคสต์ทำให้โลกตื่นเต้นเร้าใจ แต่พวกเขาจำเป็นต้องแยกแยะคำศัพท์นับล้านล้านคำจากบทความข่าว บทภาพยนตร์ และหนังสือที่หลากหลายเพื่อพัฒนาทักษะเหล่านี้

ในทางตรงกันข้าม เด็กๆ เรียนรู้โดยใช้ข้อมูลน้อยกว่ามากและสรุปการเรียนรู้อย่างรวดเร็วเมื่อโตขึ้น นักวิทยาศาสตร์สงสัยมานานแล้วว่า AI สามารถจับความสามารถเหล่านี้จากประสบการณ์ในชีวิตประจำวันเพียงอย่างเดียวได้หรือไม่

“เราแสดงให้เห็นเป็นครั้งแรกว่าโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลพัฒนาการที่สมจริงจากเด็กคนเดียวสามารถเรียนรู้ที่จะเชื่อมโยงคำศัพท์เข้ากับคำศัพท์ที่มองเห็นได้” ดร. Wai Keen Vong ผู้เขียนการศึกษาจากศูนย์วิทยาศาสตร์ข้อมูลของ NYU กล่าวในการแถลงข่าว เกี่ยวกับการวิจัย

ของเด็กเล่น

เด็ก ๆ ซึมซับคำศัพท์และความหมายจากประสบการณ์ในชีวิตประจำวันได้อย่างง่ายดาย

เมื่ออายุเพียงหกเดือน พวกเขาเริ่มเชื่อมโยงคำศัพท์กับสิ่งที่พวกเขาเห็น ตัวอย่างเช่น สิ่งที่เด้งเป็นวงกลมคือ "ลูกบอล" เมื่ออายุได้ 300 ปี พวกเขาจะรู้คำศัพท์และแนวคิดประมาณ XNUMX คำ

นักวิทยาศาสตร์ถกเถียงกันมานานแล้วว่าสิ่งนี้เกิดขึ้นได้อย่างไร ทฤษฎีหนึ่งบอกว่าเด็กๆ เรียนรู้ที่จะจับคู่สิ่งที่พวกเขาเห็นกับสิ่งที่พวกเขาได้ยิน อีกประการหนึ่งแนะนำว่าการเรียนรู้ภาษาต้องอาศัยประสบการณ์ในโลกกว้าง เช่น ปฏิสัมพันธ์ทางสังคมและความสามารถในการใช้เหตุผล

เป็นการยากที่จะแยกแนวคิดเหล่านี้ออกจากกันด้วยการทดสอบความรู้ความเข้าใจแบบดั้งเดิมในเด็กเล็ก แต่เราอาจได้คำตอบจากการฝึกฝน AI ผ่านตาและหูของเด็ก

เอ็ม3แกน?

การศึกษาครั้งใหม่นี้ใช้แหล่งข้อมูลวิดีโอที่เรียกว่า เซย์แคมซึ่งรวมถึงข้อมูลที่รวบรวมจากเด็กสามคนที่มีอายุระหว่าง 6 ถึง 32 เดือนโดยใช้กล้องที่มีลักษณะคล้าย GoPro ติดอยู่ที่หน้าผาก

กล้องจะบันทึกภาพและเสียงประมาณหนึ่งชั่วโมงสัปดาห์ละสองครั้งขณะดูแล คลาน และเล่น บทสนทนาที่ได้ยินทั้งหมดจะถูกแปลงเป็น “คำพูด” ซึ่งเป็นคำหรือประโยคที่พูดก่อนที่ผู้พูดหรือบทสนทนาจะเปลี่ยนไป ผลลัพธ์ที่ได้คือข้อมูลมัลติมีเดียมากมายจากมุมมองของเด็กทารกและเด็กเล็ก

สำหรับระบบใหม่นี้ ทีมงานได้ออกแบบโครงข่ายประสาทเทียม 2 โครงข่ายโดยมี “ผู้พิพากษา” เพื่อประสานงานโครงข่ายประสาททั้งสอง ภาพบุคคลที่หนึ่งแปลเป็นภาพใครและฉากอะไร—แม่ทำอาหารหรือเปล่า? ส่วนคำและความหมายอื่นๆ ที่ถอดรหัสจากการบันทึกเสียง

จากนั้นทั้งสองระบบก็มีความสัมพันธ์กันตามเวลา ดังนั้น AI จึงเรียนรู้ที่จะเชื่อมโยงภาพที่ถูกต้องกับคำศัพท์ ตัวอย่างเช่น AI เรียนรู้ที่จะจับคู่ภาพเด็กทารกกับคำว่า “ดูสิ มีลูกแล้ว” หรือภาพลูกบอลโยคะกับ “ว้าว นั่นมันลูกบอลใหญ่” ด้วยการฝึกฝน พวกเขาค่อยๆ เรียนรู้ที่จะแยกแนวคิดเรื่องลูกบอลโยคะออกจากเด็กทารก

“สิ่งนี้ช่วยให้แบบจำลองทราบว่าคำใดควรเชื่อมโยงกับวัตถุใด” หว่องกล่าว

จากนั้นทีมงานได้ฝึก AI ในวิดีโอจากชีวิตประมาณหนึ่งปีครึ่งของ Sam รวมกันแล้วมีเฟรมวิดีโอมากกว่า 600,000 เฟรม และคำพูดที่ถอดเสียง 37,500 คำ แม้ว่าตัวเลขจะดูมาก แต่ก็เป็นเพียงประมาณร้อยละ XNUMX ของชีวิตตื่นในแต่ละวันของ Sam และเรื่องไร้สาระ เมื่อเทียบกับปริมาณข้อมูลที่ใช้ในการฝึกโมเดลภาษาขนาดใหญ่

Baby AI กำลังมาแรง

เพื่อทดสอบระบบ ทีมงานได้ปรับแบบทดสอบความรู้ความเข้าใจทั่วไปที่ใช้วัดความสามารถทางภาษาของเด็ก พวกเขาแสดงภาพใหม่สี่ภาพให้กับ AI ได้แก่ แมว เปล ลูกบอล และสนามหญ้า และถามว่าภาพไหนคือลูกบอล

โดยรวมแล้ว AI เลือกภาพที่ถูกต้องประมาณ 62 เปอร์เซ็นต์ของเวลาทั้งหมด ประสิทธิภาพเกือบจะตรงกับอัลกอริธึมล้ำสมัยที่ได้รับการฝึกฝนกับคู่รูปภาพและข้อความกว่า 400 ล้านคู่จากเว็บ ซึ่งมีปริมาณข้อมูลมากกว่าที่ใช้ในการฝึกอบรม AI ในการศึกษานี้ พวกเขาพบว่าการเชื่อมโยงภาพวิดีโอกับเสียงเป็นสิ่งสำคัญ เมื่อทีมสับเปลี่ยนเฟรมวิดีโอและคำพูดที่เกี่ยวข้อง โมเดลก็พังโดยสิ้นเชิง

AI ยังสามารถ “คิด” นอกกรอบและสรุปสถานการณ์ใหม่ได้

ในการทดสอบอื่น ได้รับการฝึกฝนเกี่ยวกับมุมมองของแซมต่อหนังสือภาพตามที่พ่อแม่ของเขาพูดว่า “มันคือเป็ดและผีเสื้อ” ต่อมาเขาชูผีเสื้อของเล่นขึ้นมาเมื่อถูกถามว่า “คุณทำผีเสื้อได้ไหม” เมื่อถูกท้าทายด้วยภาพผีเสื้อหลากสี ซึ่งเป็นภาพที่ AI ไม่เคยเห็นมาก่อน ระบบตรวจพบตัวอย่าง "ผีเสื้อ" สามในสี่ตัวอย่างที่มีความแม่นยำมากกว่า 80 เปอร์เซ็นต์

แนวคิดของคำทั้งหมดไม่ได้คะแนนเหมือนกัน ตัวอย่างเช่น “ช้อน” เป็นการต่อสู้ดิ้นรน แต่มันก็คุ้มค่าที่จะชี้ให้เห็นว่าเหมือนยาก reCAPTCHAภาพการฝึกนั้นยากที่จะถอดรหัสแม้แต่กับมนุษย์

ความเจ็บปวด

พื้นที่ AI สร้างจากความก้าวหน้าล่าสุดในการเรียนรู้ของเครื่องแบบหลายรูปแบบซึ่งรวมข้อความ รูปภาพ เสียง หรือวิดีโอเพื่อฝึกสมองของเครื่องจักร

ด้วยข้อมูลจากประสบการณ์ของเด็กเพียงคนเดียว อัลกอริธึมจึงสามารถจับภาพว่าคำต่างๆ เกี่ยวข้องกันอย่างไร และเชื่อมโยงคำเข้ากับรูปภาพและแนวคิดได้ โดยแนะนำว่าการที่เด็กวัยหัดเดินได้ยินคำศัพท์และจับคู่คำศัพท์กับสิ่งที่พวกเขาเห็นจะช่วยสร้างคำศัพท์ได้

ไม่ได้หมายความว่ากระบวนการอื่นๆ ของสมอง เช่น สัญญาณทางสังคมและการให้เหตุผลจะไม่เข้ามามีบทบาท ผู้เขียนเขียนว่าการเพิ่มส่วนประกอบเหล่านี้ลงในอัลกอริธึมอาจช่วยปรับปรุงได้

ทีมงานวางแผนที่จะทำการทดลองต่อไป ในตอนนี้ AI “baby” เรียนรู้จากกรอบภาพนิ่งเท่านั้น และมีคำศัพท์ที่ส่วนใหญ่ประกอบด้วยคำนาม การรวมส่วนวิดีโอเข้ากับการฝึกอบรมสามารถช่วยให้ AI เรียนรู้คำกริยาได้ เนื่องจากวิดีโอมีการเคลื่อนไหวด้วย

การเพิ่มน้ำเสียงลงในข้อมูลคำพูดก็สามารถช่วยได้เช่นกัน เด็กๆ เรียนรู้ตั้งแต่เนิ่นๆ ว่า “อืม” ของแม่สามารถมีความหมายที่แตกต่างกันอย่างมากขึ้นอยู่กับน้ำเสียง

แต่โดยรวมแล้ว การผสมผสาน AI และประสบการณ์ชีวิตเข้าด้วยกันเป็นวิธีการใหม่ที่ทรงพลังในการศึกษาทั้งสมองของเครื่องจักรและสมองของมนุษย์ มันสามารถช่วยให้เราพัฒนาโมเดล AI ใหม่ที่เรียนรู้ได้เหมือนเด็ก และอาจปรับเปลี่ยนความเข้าใจของเราเกี่ยวกับวิธีที่สมองของเราเรียนรู้ภาษาและแนวความคิด

เครดิตรูปภาพ: Wai Keen Vong

ประทับเวลา:

เพิ่มเติมจาก Hub เอกพจน์