07 בפברואר 2023 (חדשות Nanowerk) דגמי שפה גדולים כמו GPT-3 של OpenAI הם רשתות עצביות מסיביות שיכולות ליצור טקסט דמוי אדם, משירה ועד קוד תכנות. מודלים אלה של למידה חישובית מאומנים באמצעות שפע של נתונים באינטרנט, לוקחים מעט טקסט קלט ואז מנבאים את הטקסט שצפוי להגיע בהמשך.
אבל זה לא כל מה שהדגמים האלה יכולים לעשות. חוקרים חוקרים תופעה מוזרה המכונה למידה בתוך הקשר, שבה מודל שפה גדול לומד לבצע משימה לאחר שראה רק כמה דוגמאות - למרות העובדה שהוא לא הוכשר למשימה זו. לדוגמה, מישהו יכול להאכיל את המודל בכמה משפטים לדוגמה והרגשות שלהם (חיוביים או שליליים), ואז לבקש ממנו משפט חדש, והמודל יכול לתת את הסנטימנט הנכון.
בדרך כלל, מודל למידת מכונה כמו GPT-3 יצטרך לעבור הכשרה מחדש עם נתונים חדשים עבור המשימה החדשה הזו. במהלך תהליך אימון זה, המודל מעדכן את הפרמטרים שלו כשהוא מעבד מידע חדש כדי ללמוד את המשימה. אבל עם למידה בתוך הקשר, הפרמטרים של המודל לא מתעדכנים, כך שנראה שהמודל לומד משימה חדשה מבלי ללמוד דבר כלל.
מדענים מ-MIT, Google Research ואוניברסיטת סטנפורד שואפים לפענח את התעלומה הזו. הם למדו מודלים הדומים מאוד למודלים של שפות גדולות כדי לראות כיצד הם יכולים ללמוד מבלי לעדכן פרמטרים.
התוצאות התיאורטיות של החוקרים מראות שמודלים מסיביים של רשתות עצבים אלה מסוגלים להכיל מודלים ליניאריים קטנים ופשוטים יותר הקבורים בתוכם. לאחר מכן, המודל הגדול יוכל ליישם אלגוריתם למידה פשוט כדי לאמן את המודל הקטן והליניארי הזה להשלמת משימה חדשה, תוך שימוש רק במידע שכבר כלול במודל הגדול יותר. הפרמטרים שלו נשארים קבועים.
צעד חשוב לקראת הבנת המנגנונים מאחורי למידה בתוך הקשר, מחקר זה פותח את הדלת לחקירה נוספת סביב אלגוריתמי הלמידה שהמודלים הגדולים הללו יכולים ליישם, אומר Ekin Akyürek, סטודנט לתואר שני במדעי המחשב ומחבר ראשי של מאמר (“What learning algorithm is in-context learning? Investigations with linear models”) לחקור את התופעה הזו. עם הבנה טובה יותר של למידה בתוך הקשר, חוקרים יכולים לאפשר למודלים להשלים משימות חדשות ללא צורך בהכשרה מחדש יקרה.
"בדרך כלל, אם אתה רוצה לכוונן את המודלים האלה, אתה צריך לאסוף נתונים ספציפיים לתחום ולבצע הנדסה מורכבת. אבל עכשיו אנחנו יכולים פשוט להאכיל אותו בקלט, חמש דוגמאות, וזה משיג את מה שאנחנו רוצים. אז למידה בהקשר היא תופעה די מרגשת", אומר אקיורק.
על המאמר מצטרפים לאקיורק דייל שורמנס, מדען מחקר ב-Google Brain ופרופסור למדעי המחשוב באוניברסיטת אלברטה; כמו גם סופרים בכירים יעקב אנדראס, עוזר פרופסור של קונסורציום X במחלקה להנדסת חשמל ומדעי המחשב של MIT וחבר במעבדת MIT למדעי המחשב והבינה המלאכותית (CSAIL); Tengyu Ma, עוזר פרופסור למדעי המחשב וסטטיסטיקה בסטנפורד; ודני ז'ואו, מדען ראשי ומנהל מחקר ב-Google Brain. המחקר יוצג בכנס הבינלאומי על ייצוגי למידה.
מודל בתוך מודל
בקהילת המחקר של למידת מכונה, מדענים רבים החלו להאמין שמודלים של שפה גדולים יכולים לבצע למידה בתוך הקשר בגלל האופן שבו הם מאומנים, אומר אקיורק. לדוגמה, ל-GPT-3 יש מאות מיליארדי פרמטרים והוא הוכשר על ידי קריאת חלקי טקסט עצומים באינטרנט, ממאמרי ויקיפדיה ועד לפוסטים של Reddit. לכן, כשמישהו מראה את דוגמאות המודל של משימה חדשה, סביר להניח שהוא כבר ראה משהו מאוד דומה כי מערך ההדרכה שלו כלל טקסט ממיליארדי אתרים. הוא חוזר על דפוסים שראה במהלך האימון, במקום לומד לבצע משימות חדשות. אקיורק שיער שלומדים בתוך ההקשר לא רק תואמים דפוסים שנראו בעבר, אלא לומדים למעשה לבצע משימות חדשות. הוא ואחרים ערכו ניסויים על ידי מתן הנחיות למודלים אלה באמצעות נתונים סינתטיים, שהם לא יכלו לראות בשום מקום קודם לכן, וגילו שהמודלים עדיין יכולים ללמוד מכמה דוגמאות בלבד. אקיורק ועמיתיו חשבו שאולי למודלים של רשתות עצביות אלו יש בתוכם מודלים קטנים יותר של לימוד מכונה שהמודלים יכולים לאמן להשלמת משימה חדשה. "זה יכול להסביר כמעט את כל תופעות הלמידה שראינו עם המודלים הגדולים האלה", הוא אומר. כדי לבחון השערה זו, החוקרים השתמשו במודל רשת עצבית הנקרא שנאי, בעל אותה ארכיטקטורה כמו GPT-3, אך הוכשר במיוחד ללמידה בהקשר. על ידי חקר הארכיטקטורה של השנאי הזה, הם הוכיחו תיאורטית שהוא יכול לכתוב מודל ליניארי בתוך המצבים הנסתרים שלו. רשת עצבית מורכבת משכבות רבות של צמתים מחוברים המעבדים נתונים. המצבים הנסתרים הם השכבות בין שכבות הקלט והפלט. ההערכות המתמטיות שלהם מראות שהמודל הליניארי הזה כתוב אי שם בשכבות המוקדמות ביותר של השנאי. לאחר מכן השנאי יכול לעדכן את המודל הליניארי על ידי יישום אלגוריתמי למידה פשוטים. למעשה, המודל מדמה ומאמן גרסה קטנה יותר של עצמו.חיטוט בשכבות נסתרות
החוקרים חקרו את ההשערה הזו באמצעות ניסויי גישוש, שבהם הסתכלו בשכבות הנסתרות של השנאי כדי לנסות לשחזר כמות מסוימת. "במקרה זה, ניסינו לשחזר את הפתרון בפועל למודל הליניארי, ויכולנו להראות שהפרמטר כתוב במצבים הנסתרים. זה אומר שהמודל הליניארי נמצא שם איפשהו", הוא אומר. בהתבסס על עבודה תיאורטית זו, ייתכן שהחוקרים יוכלו לאפשר לשנאי לבצע למידה בתוך הקשר על ידי הוספת שתי שכבות בלבד לרשת העצבית. יש עדיין הרבה פרטים טכניים שצריך לפתור לפני שזה יהיה אפשרי, מזהיר אקיורק, אבל זה יכול לעזור למהנדסים ליצור מודלים שיכולים להשלים משימות חדשות ללא צורך בהכשרה מחדש עם נתונים חדשים. בהמשך, Akyürek מתכנן להמשיך ולחקור למידה בתוך הקשר עם פונקציות מורכבות יותר מהמודלים הליניאריים שהם למדו בעבודה זו. הם יכולים גם ליישם את הניסויים הללו על מודלים של שפה גדולים כדי לראות אם ההתנהגויות שלהם מתוארות גם על ידי אלגוריתמי למידה פשוטים. בנוסף, הוא רוצה לחפור עמוק יותר בסוגי נתוני אימון מקדים שיכולים לאפשר למידה בתוך הקשר. "עם העבודה הזו, אנשים יכולים כעת לדמיין כיצד המודלים הללו יכולים ללמוד מדוגמאות. אז, התקווה שלי היא שזה ישנה את דעותיהם של אנשים מסוימים לגבי למידה בתוך הקשר", אומר אקיורק. "הדגמים האלה לא מטומטמים כמו שאנשים חושבים. הם לא רק משננים את המשימות האלה. הם יכולים ללמוד משימות חדשות, והראינו כיצד ניתן לעשות זאת."- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
- מקור: https://www.nanowerk.com/news2/robotics/newsid=62325.php
- 10
- 7
- 9
- a
- יכול
- אודות
- להשיג
- למעשה
- תוספת
- לאחר
- אלברטה
- אַלגוֹרִיתְם
- אלגוריתמים
- תעשיות
- כְּבָר
- ו
- בְּכָל מָקוֹם
- החל
- ארכיטקטורה
- סביב
- מאמרים
- מלאכותי
- בינה מלאכותית
- עוזר
- מחבר
- מחברים
- כי
- לפני
- מאחור
- תאמינו
- מוטב
- בֵּין
- מיליארדים
- קצת
- מוֹחַ
- בִּניָן
- נקרא
- מסוגל
- מקרה
- מסוים
- שינויים
- קוד
- עמיתים
- לגבות
- איך
- קהילה
- להשלים
- מורכב
- מורכב
- המחשב
- מדעי מחשב
- מחשוב
- כנס
- קונסורציום
- להמשיך
- יכול
- לִיצוֹר
- CSAIL
- סקרן
- נתונים
- תַאֲרִיך
- עמוק יותר
- מַחלָקָה
- מְתוּאָר
- למרות
- פרטים
- לחפור
- מְנַהֵל
- לא
- דֶלֶת
- בְּמַהֲלָך
- הנדסת חשמל
- לאפשר
- הנדסה
- מהנדסים
- מַהוּת
- הערכות
- דוגמה
- דוגמאות
- מרגש
- להסביר
- חקירה
- חקר
- היכרות
- מעטים
- קבוע
- קדימה
- מצא
- החל מ-
- פונקציות
- ליצור
- לתת
- נתינה
- בוגר
- לעזור
- מוּסתָר
- לקוות
- איך
- HTTPS
- עצום
- מאות
- ליישם
- יישום
- חשוב
- in
- כלול
- מידע
- קלט
- למשל
- במקום
- מוֹדִיעִין
- מקושרים
- ברמה בינלאומית
- אינטרנט
- חקירות
- IT
- עצמו
- הצטרפות
- ידוע
- מעבדה
- שפה
- גָדוֹל
- גדול יותר
- שכבות
- עוֹפֶרֶת
- לִלמוֹד
- למידה
- סביר
- נראה
- רב
- מסיבי
- תואם
- מתימטי
- אומר
- חבר
- MIT
- מודל
- מודלים
- יותר
- נע
- תעלומה
- צורך
- שלילי
- רשת
- רשתות
- עצביים
- רשת עצבית
- רשתות עצביות
- חדש
- הבא
- צמתים
- נפתח
- אחרים
- מאמר
- פרמטר
- פרמטרים
- דפוסי
- אֲנָשִׁים
- אנשיו של
- לבצע
- אוּלַי
- תופעה
- תוכניות
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- שירה
- חיובי
- אפשרי
- הודעות
- לחזות
- מוצג
- יפה
- קוֹדֶם
- מנהל
- תהליך
- תהליכים
- פרופסור
- תכנות
- הוכיח
- כמות
- קריאה
- להחלים
- להשאר
- מחקר
- קהילת מחקר
- חוקרים
- תוצאות
- הסבה מקצועית
- אותו
- אומר
- מדע
- מַדְעָן
- מדענים
- ראות
- נראה
- לחצני מצוקה לפנסיונרים
- משפט
- רגש
- כמה
- לְהַצִיג
- הראה
- הופעות
- דומה
- פָּשׁוּט
- קטן
- קטן יותר
- So
- פִּתָרוֹן
- פותר
- כמה
- מישהו
- משהו
- אי שם
- במיוחד
- סטנפורד
- אוניברסיטת סטנפורד
- הברית
- סטטיסטיקה
- שלב
- עוד
- סטודנט
- מְחוֹשָׁב
- סינטטי
- נתונים סינתטיים
- לקחת
- המשימות
- משימות
- טכני
- מבחן
- השמיים
- שֶׁלָהֶם
- תיאורטי
- מחשבה
- ל
- לקראת
- רכבת
- מְאוּמָן
- הדרכה
- רכבות
- סוגים
- בדרך כלל
- הבנה
- אוניברסיטה
- עדכון
- מְעוּדכָּן
- עדכונים
- עדכון
- גרסה
- נופים
- אתרים
- מה
- אם
- אשר
- ויקיפדיה
- יצטרך
- בתוך
- לְלֹא
- תיק עבודות
- להתאמן
- היה
- לכתוב
- כתוב
- X
- זפירנט