AI זה עתה למד שפה דרך העיניים והאוזניים של פעוט

הועלה מחדש על ידי אפלטון

עוקב: 0

סאם היה בן שישה חודשים כשהחבר לראשונה מצלמה קלת משקל על מצחו.

לשנה וחצי הקרובות, המצלמה צילמה קטעים מחייו. הוא זחל סביב חיות המחמד של המשפחה, צפה בהוריו מבשלים ובכה במרפסת הקדמית עם סבתא. כל אותו זמן, המצלמה תיעדה את כל מה ששמע.

מה שנשמע כמו סרטון ביתי חמוד לפעוטות הוא למעשה מושג נועז: האם בינה מלאכותית יכולה ללמוד שפה כמו ילד? התוצאות יכולות גם לחשוף כיצד ילדים רוכשים במהירות שפה ומושגים בגיל צעיר.

מחקר חדש in מדע מתאר כיצד חוקרים השתמשו בהקלטות של סם כדי לאמן AI להבין שפה. עם רק חלק זעיר מניסיון החיים של ילד אחד במשך שנה, הבינה המלאכותית הצליחה לתפוס מושגים בסיסיים - למשל, כדור, פרפר או דלי.

ה-AI, שנקרא Child's View for Contrastive Learning (CVCL), מחקה בערך את האופן שבו אנו לומדים כפעוטות על ידי התאמת הראייה לאודיו. זו גישה שונה מאוד מזו שלוקח מודלים של שפות גדולות כמו אלה מאחורי ChatGPT או בארד. היכולת המופלאה של הדוגמניות הללו ליצור חיבורים, שירה או אפילו תסריטי פודקאסט ריגשה את העולם. אבל הם צריכים לעכל טריליוני מילים ממגוון רחב של מאמרי חדשות, תסריטים וספרים כדי לפתח את המיומנויות הללו.

ילדים, לעומת זאת, לומדים עם הרבה פחות מידע ומכלילים במהירות את הלמידה שלהם כשהם גדלים. מדענים תהו זה מכבר אם בינה מלאכותית יכולה לתפוס את היכולות הללו עם חוויות יומיומיות בלבד.

"אנחנו מראים, בפעם הראשונה, שרשת עצבית מאומנת על קלט ריאליסטי התפתחותי זה מילד בודד יכולה ללמוד לקשר מילים לעמיתיהם החזותיים", מחבר המחקר ד"ר וואי קין וונג במרכז למדעי הנתונים של NYU. אמר בהודעה לעיתונות על המחקר.

משחק ילדים

ילדים סופגים בקלות מילים ומשמעויותיהן מחוויה יומיומית.

בגיל שישה חודשים בלבד, הם מתחילים לחבר מילים למה שהם רואים - לדוגמה, דבר קופצני עגול הוא "כדור". עד גיל שנתיים, הם יודעים בערך 300 מילים ואת המושגים שלהם.

מדענים התלבטו זמן רב כיצד זה קורה. תיאוריה אחת אומרת שילדים לומדים להתאים את מה שהם רואים למה שהם שומעים. אחר מציע שלמידת שפה דורשת חוויה רחבה יותר של העולם, כגון אינטראקציה חברתית ויכולת הגיון.

קשה להקניט את הרעיונות הללו בעזרת מבחנים קוגניטיביים מסורתיים בפעוטות. אבל אנחנו עשויים לקבל תשובה על ידי אימון AI דרך העיניים והאוזניים של ילד.

M3GAN?

המחקר החדש השתמש במשאב וידאו עשיר בשם SAYCam, הכולל נתונים שנאספו משלושה ילדים בגילאי 6 עד 32 חודשים באמצעות מצלמות דמויות GoPro החגורות למצחם.

פעמיים בכל שבוע, המצלמות תיעדו כשעה של צילומים ואודיו בזמן שהן יונקות, זחלו ושיחקו. כל הדיאלוג הנשמע תומלל ל"אמירות" - מילים או משפטים שנאמרו לפני שינוי הדובר או השיחה. התוצאה היא שפע של נתוני מולטימדיה מנקודת מבטם של תינוקות ופעוטות.

עבור המערכת החדשה, הצוות עיצב שתי רשתות עצביות עם "שופט" שירכז ביניהן. אחד תרגם קטעים ויזואליים מגוף ראשון לסצנה של מי ומה - האם זו אמא מבשלת? השני פענח מילים ומשמעויות מהקלטות האודיו.

לאחר מכן, שתי המערכות היו מתואמות בזמן, כך שה-AI למד לקשר בין תמונות ויזואליות נכונות למילים. לדוגמה, הבינה המלאכותית למדה להתאים תמונה של תינוק למילים "תראה, יש תינוק" או תמונה של כדור יוגה ל"וואו, זה כדור גדול". עם האימון, הוא למד בהדרגה להפריד בין המושג כדור יוגה לתינוק.

"זה מספק למודל רמז לאילו מילים יש לשייך לאילו אובייקטים", אמר וונג.

לאחר מכן, הצוות אימן את ה-AI על סרטונים משנה וחצי בערך מחייו של סם. יחד, זה הסתכם בלמעלה מ-600,000 פריימים של וידאו, יחד עם 37,500 אמירות מתומללות. למרות שהמספרים נשמעים גדולים, הם בערך רק אחוז אחד מחיי הערות היומיומיים והבוטנים של סאם בהשוואה לכמות הנתונים המשמשים לאימון מודלים של שפות גדולות.

תינוקות בינה מלאכותית בעלייה

כדי לבדוק את המערכת, הצוות התאים מבחן קוגניטיבי נפוץ המשמש למדידת יכולות השפה של ילדים. הם הראו ל-AI ארבע תמונות חדשות - חתול, עריסה, כדור ומדשאה - ושאלו מי מהם הכדור.

בסך הכל, ה-AI בחר את התמונה הנכונה בסביבות 62 אחוז מהזמן. הביצועים כמעט תאמו אלגוריתם חדיש שאומן על 400 מיליון צמדי תמונות וטקסט מהאינטרנט - נתונים בסדרי גודל יותר מזה ששימשו לאימון ה-AI במחקר. הם גילו שקישור תמונות וידאו עם אודיו היה חיוני. כשהצוות ערבב פריימים של וידאו וההתבטאויות הקשורות אליהם, המודל נשבר לחלוטין.

ה-AI יכול גם "לחשוב" מחוץ לקופסה ולהכליל למצבים חדשים.

במבחן אחר, הוא הוכשר על נקודת המבט של סם על ספר תמונות כפי שהורה שלו אמר, "זה ברווז ופרפר." מאוחר יותר, הוא הרים פרפר צעצוע כשנשאל, "אתה יכול לעשות את הפרפר?" כאשר מאותגר עם תמונות פרפרים ססגוניות - כאלה שה-AI מעולם לא ראה קודם לכן - הוא זיהה שלוש מתוך ארבע דוגמאות ל"פרפר" עם דיוק של מעל 80 אחוז.

לא כל מושגי המילים קיבלו אותו דבר. למשל, "כפית" הייתה מאבק. אבל ראוי לציין את זה, כמו קשוח reCAPTCHA, תמונות האימון היו קשות לפענוח אפילו עבור אדם.

כאבי גדילה

השמיים בינה מלאכותית מתבססת על ההתקדמות האחרונה בלמידת מכונה רב-מודאלית, המשלב טקסט, תמונות, אודיו או וידאו כדי לאמן מוח של מכונה.

בעזרת קלט מחוויה של ילד בודד בלבד, האלגוריתם הצליח לתפוס כיצד מילים קשורות זו לזו ולקשר מילים לתמונות ומושגים. זה מצביע על כך שלפעוטות שמיעת מילים והתאמתן למה שהם רואים עוזרת לבנות את אוצר המילים שלהם.

זה לא אומר שתהליכים מוחיים אחרים, כמו רמזים חברתיים והיגיון לא נכנסים לתמונה. הוספת רכיבים אלה לאלגוריתם עשויה לשפר אותו, כתבו המחברים.

הצוות מתכנן להמשיך בניסוי. לעת עתה, ה-AI "התינוק" לומד רק ממסגרות של תמונות סטילס ויש לו אוצר מילים המורכב בעיקר משמות עצם. שילוב קטעי וידאו בהדרכה יכול לעזור לבינה מלאכותית ללמוד פעלים מכיוון שהווידאו כולל תנועה.

הוספת אינטונציה לנתוני דיבור יכולה גם לעזור. ילדים לומדים בשלב מוקדם של"הממ" של אמא יכולות להיות משמעויות שונות בתכלית בהתאם לטון.

אבל בסך הכל, שילוב של בינה מלאכותית וחוויות חיים היא שיטה חדשה ועוצמתית לחקר מוחות מכונה ומוחות אנושיים כאחד. זה יכול לעזור לנו לפתח מודלים חדשים של AI שלומדים כמו ילדים, ואולי לעצב מחדש את ההבנה שלנו לגבי האופן שבו המוח שלנו לומד שפה ומושגים.

קרדיט תמונה: וואי קין וונג