פתרון תעלומת לימוד מכונה

פתרון תעלומת לימוד מכונה

צומת המקור: 1944875
07 בפברואר 2023 (חדשות Nanowerk) דגמי שפה גדולים כמו GPT-3 של OpenAI הם רשתות עצביות מסיביות שיכולות ליצור טקסט דמוי אדם, משירה ועד קוד תכנות. מודלים אלה של למידה חישובית מאומנים באמצעות שפע של נתונים באינטרנט, לוקחים מעט טקסט קלט ואז מנבאים את הטקסט שצפוי להגיע בהמשך. אבל זה לא כל מה שהדגמים האלה יכולים לעשות. חוקרים חוקרים תופעה מוזרה המכונה למידה בתוך הקשר, שבה מודל שפה גדול לומד לבצע משימה לאחר שראה רק כמה דוגמאות - למרות העובדה שהוא לא הוכשר למשימה זו. לדוגמה, מישהו יכול להאכיל את המודל בכמה משפטים לדוגמה והרגשות שלהם (חיוביים או שליליים), ואז לבקש ממנו משפט חדש, והמודל יכול לתת את הסנטימנט הנכון. בדרך כלל, מודל למידת מכונה כמו GPT-3 יצטרך לעבור הכשרה מחדש עם נתונים חדשים עבור המשימה החדשה הזו. במהלך תהליך אימון זה, המודל מעדכן את הפרמטרים שלו כשהוא מעבד מידע חדש כדי ללמוד את המשימה. אבל עם למידה בתוך הקשר, הפרמטרים של המודל לא מתעדכנים, כך שנראה שהמודל לומד משימה חדשה מבלי ללמוד דבר כלל. מדענים מ-MIT, Google Research ואוניברסיטת סטנפורד שואפים לפענח את התעלומה הזו. הם למדו מודלים הדומים מאוד למודלים של שפות גדולות כדי לראות כיצד הם יכולים ללמוד מבלי לעדכן פרמטרים. התוצאות התיאורטיות של החוקרים מראות שמודלים מסיביים של רשתות עצבים אלה מסוגלים להכיל מודלים ליניאריים קטנים ופשוטים יותר הקבורים בתוכם. לאחר מכן, המודל הגדול יוכל ליישם אלגוריתם למידה פשוט כדי לאמן את המודל הקטן והליניארי הזה להשלמת משימה חדשה, תוך שימוש רק במידע שכבר כלול במודל הגדול יותר. הפרמטרים שלו נשארים קבועים. צעד חשוב לקראת הבנת המנגנונים מאחורי למידה בתוך הקשר, מחקר זה פותח את הדלת לחקירה נוספת סביב אלגוריתמי הלמידה שהמודלים הגדולים הללו יכולים ליישם, אומר Ekin Akyürek, סטודנט לתואר שני במדעי המחשב ומחבר ראשי של מאמר (“What learning algorithm is in-context learning? Investigations with linear models”) לחקור את התופעה הזו. עם הבנה טובה יותר של למידה בתוך הקשר, חוקרים יכולים לאפשר למודלים להשלים משימות חדשות ללא צורך בהכשרה מחדש יקרה. "בדרך כלל, אם אתה רוצה לכוונן את המודלים האלה, אתה צריך לאסוף נתונים ספציפיים לתחום ולבצע הנדסה מורכבת. אבל עכשיו אנחנו יכולים פשוט להאכיל אותו בקלט, חמש דוגמאות, וזה משיג את מה שאנחנו רוצים. אז למידה בהקשר היא תופעה די מרגשת", אומר אקיורק. על המאמר מצטרפים לאקיורק דייל שורמנס, מדען מחקר ב-Google Brain ופרופסור למדעי המחשוב באוניברסיטת אלברטה; כמו גם סופרים בכירים יעקב אנדראס, עוזר פרופסור של קונסורציום X במחלקה להנדסת חשמל ומדעי המחשב של MIT וחבר במעבדת MIT למדעי המחשב והבינה המלאכותית (CSAIL); Tengyu Ma, עוזר פרופסור למדעי המחשב וסטטיסטיקה בסטנפורד; ודני ז'ואו, מדען ראשי ומנהל מחקר ב-Google Brain. המחקר יוצג בכנס הבינלאומי על ייצוגי למידה.

מודל בתוך מודל

בקהילת המחקר של למידת מכונה, מדענים רבים החלו להאמין שמודלים של שפה גדולים יכולים לבצע למידה בתוך הקשר בגלל האופן שבו הם מאומנים, אומר אקיורק. לדוגמה, ל-GPT-3 יש מאות מיליארדי פרמטרים והוא הוכשר על ידי קריאת חלקי טקסט עצומים באינטרנט, ממאמרי ויקיפדיה ועד לפוסטים של Reddit. לכן, כשמישהו מראה את דוגמאות המודל של משימה חדשה, סביר להניח שהוא כבר ראה משהו מאוד דומה כי מערך ההדרכה שלו כלל טקסט ממיליארדי אתרים. הוא חוזר על דפוסים שראה במהלך האימון, במקום לומד לבצע משימות חדשות. אקיורק שיער שלומדים בתוך ההקשר לא רק תואמים דפוסים שנראו בעבר, אלא לומדים למעשה לבצע משימות חדשות. הוא ואחרים ערכו ניסויים על ידי מתן הנחיות למודלים אלה באמצעות נתונים סינתטיים, שהם לא יכלו לראות בשום מקום קודם לכן, וגילו שהמודלים עדיין יכולים ללמוד מכמה דוגמאות בלבד. אקיורק ועמיתיו חשבו שאולי למודלים של רשתות עצביות אלו יש בתוכם מודלים קטנים יותר של לימוד מכונה שהמודלים יכולים לאמן להשלמת משימה חדשה. "זה יכול להסביר כמעט את כל תופעות הלמידה שראינו עם המודלים הגדולים האלה", הוא אומר. כדי לבחון השערה זו, החוקרים השתמשו במודל רשת עצבית הנקרא שנאי, בעל אותה ארכיטקטורה כמו GPT-3, אך הוכשר במיוחד ללמידה בהקשר. על ידי חקר הארכיטקטורה של השנאי הזה, הם הוכיחו תיאורטית שהוא יכול לכתוב מודל ליניארי בתוך המצבים הנסתרים שלו. רשת עצבית מורכבת משכבות רבות של צמתים מחוברים המעבדים נתונים. המצבים הנסתרים הם השכבות בין שכבות הקלט והפלט. ההערכות המתמטיות שלהם מראות שהמודל הליניארי הזה כתוב אי שם בשכבות המוקדמות ביותר של השנאי. לאחר מכן השנאי יכול לעדכן את המודל הליניארי על ידי יישום אלגוריתמי למידה פשוטים. למעשה, המודל מדמה ומאמן גרסה קטנה יותר של עצמו.

חיטוט בשכבות נסתרות

החוקרים חקרו את ההשערה הזו באמצעות ניסויי גישוש, שבהם הסתכלו בשכבות הנסתרות של השנאי כדי לנסות לשחזר כמות מסוימת. "במקרה זה, ניסינו לשחזר את הפתרון בפועל למודל הליניארי, ויכולנו להראות שהפרמטר כתוב במצבים הנסתרים. זה אומר שהמודל הליניארי נמצא שם איפשהו", הוא אומר. בהתבסס על עבודה תיאורטית זו, ייתכן שהחוקרים יוכלו לאפשר לשנאי לבצע למידה בתוך הקשר על ידי הוספת שתי שכבות בלבד לרשת העצבית. יש עדיין הרבה פרטים טכניים שצריך לפתור לפני שזה יהיה אפשרי, מזהיר אקיורק, אבל זה יכול לעזור למהנדסים ליצור מודלים שיכולים להשלים משימות חדשות ללא צורך בהכשרה מחדש עם נתונים חדשים. בהמשך, Akyürek מתכנן להמשיך ולחקור למידה בתוך הקשר עם פונקציות מורכבות יותר מהמודלים הליניאריים שהם למדו בעבודה זו. הם יכולים גם ליישם את הניסויים הללו על מודלים של שפה גדולים כדי לראות אם ההתנהגויות שלהם מתוארות גם על ידי אלגוריתמי למידה פשוטים. בנוסף, הוא רוצה לחפור עמוק יותר בסוגי נתוני אימון מקדים שיכולים לאפשר למידה בתוך הקשר. "עם העבודה הזו, אנשים יכולים כעת לדמיין כיצד המודלים הללו יכולים ללמוד מדוגמאות. אז, התקווה שלי היא שזה ישנה את דעותיהם של אנשים מסוימים לגבי למידה בתוך הקשר", אומר אקיורק. "הדגמים האלה לא מטומטמים כמו שאנשים חושבים. הם לא רק משננים את המשימות האלה. הם יכולים ללמוד משימות חדשות, והראינו כיצד ניתן לעשות זאת."

בול זמן:

עוד מ ננוווק