חובה לקרוא: 15 מאמרי AI חיוניים למפתחי GenAI

הועלה מחדש על ידי אפלטון

עוקב: 0

מבוא

ככל שתחום הבינה המלאכותית (AI) ממשיך לגדול ולהתפתח, זה הופך ליותר ויותר חשוב למפתחי AI שואפים להישאר מעודכנים במחקרים ובהתקדמות העדכניים ביותר. אחת הדרכים הטובות ביותר לעשות זאת היא על ידי קריאת AI Papers עבור מפתחי GenAI, המספקים תובנות חשובות לגבי טכניקות ואלגוריתמים מתקדמות. מאמר זה יחקור 15 מאמרי AI חיוניים למפתחי GenAI. מאמרים אלו מכסים נושאים שונים, מעיבוד שפה טבעית ועד ראייה ממוחשבת. הם ישפרו את ההבנה שלך בבינה מלאכותית ויגדילו את הסיכויים שלך לקבל את העבודה הראשונה שלך בתחום המלהיב הזה.

החשיבות של ניירות AI עבור מפתחי GenAI

מסמכי AI למפתחי GenAI מאפשרים לחוקרים ולמומחים לשתף את הממצאים, המתודולוגיות ופריצות הדרך שלהם עם הקהילה הרחבה יותר. על ידי קריאת מאמרים אלה, אתה מקבל גישה להתקדמות העדכנית ביותר ב-AI, מה שמאפשר לך להישאר בקדמת העקומה ולקבל החלטות מושכלות בעבודה שלך. יתרה מכך, מסמכי AI למפתחי GenAI מספקים לעתים קרובות הסברים מפורטים על אלגוריתמים וטכניקות, ומעניקים לך הבנה מעמיקה יותר כיצד הם פועלים וכיצד ניתן ליישם אותם על בעיות בעולם האמיתי.

קריאת AI Papers עבור מפתחי GenAI מציעה מספר יתרונות למפתחי AI שואפים. ראשית, זה עוזר לך להישאר מעודכן במחקרים ובטרנדים האחרונים בתחום. ידע זה חיוני בעת הגשת מועמדות למשרות הקשורות לבינה מלאכותית, מכיוון שמעסיקים מחפשים לעתים קרובות מועמדים המכירים את ההתקדמות העדכנית ביותר. בנוסף, קריאת מאמרי בינה מלאכותית מאפשרת לך להרחיב את הידע שלך ולקבל הבנה מעמיקה יותר של מושגים ומתודולוגיות בינה מלאכותית. ניתן ליישם את הידע הזה על הפרויקטים והמחקר שלך, מה שהופך אותך למפתח AI מוכשר ומיומן יותר.

תוכן העניינים

סקירה כללית: מסמכי AI חיוניים למפתחי GenAI עם קישורים

מאמר 1: רובוטריקים: תשומת לב היא כל מה שאתה צריך

קישור: קרא כאן

סיכום נייר

המאמר מציג את ה-Transformer, ארכיטקטורת רשת עצבית חדשה עבור משימות התמרה ברצף, כגון תרגום מכונה. בניגוד למודלים מסורתיים המבוססים על רשתות עצביות חוזרות או קונבולוציוניות, הרובוטריק מסתמך אך ורק על מנגנוני קשב, ומבטל את הצורך בהישנות ובפיתולים. המחברים טוענים כי ארכיטקטורה זו מציעה ביצועים מעולים במונחים של איכות תרגום, יכולת מקבילה מוגברת וזמן אימון מופחת.

תובנות מפתח של מסמכי AI למפתחי GenAI

מנגנון קשב

השנאי בנוי כולו על מנגנוני קשב, המאפשרים לו ללכוד תלות גלובלית בין רצפי קלט ופלט. גישה זו מאפשרת למודל לשקול קשרים מבלי להיות מוגבל על ידי המרחק בין אלמנטים ברצפים.

מקביליות
יתרון מרכזי אחד של ארכיטקטורת הרובו הוא יכולת ההקבלה המוגברת שלה. מודלים חוזרים מסורתיים סובלים מחישוב רציף, מה שהופך את ההקבלה למאתגרת. העיצוב של השנאי מאפשר עיבוד מקבילי יעיל יותר במהלך האימון, תוך צמצום זמני האימון.

איכות ויעילות מעולה

המאמר מציג תוצאות ניסיוניות על משימות תרגום מכונה, המדגימות שה-Transformer משיג איכות תרגום מעולה בהשוואה לדגמים קיימים. הוא מתעלה על תוצאות מתקדמות קודמות, כולל דגמי אנסמבל, בפער משמעותי. בנוסף, השנאי משיג את התוצאות הללו עם זמן אימון קטן משמעותית.

ביצועי תרגום

במשימת התרגום מאנגלית לגרמנית של WMT 2014, המודל המוצע משיג ציון BLEU של 28.4, ועולה על התוצאות הטובות ביותר הקיימות ביותר מ-2 BLEU. במשימה מאנגלית לצרפתית, המודל קובע ציון BLEU חדיש חדש של דגם יחיד של 41.8 לאחר אימון של 3.5 ימים בלבד על שמונה מעבדי GPU.

הכללה למשימות אחרותהמחברים מוכיחים שארכיטקטורת ה-Transformer מכללה היטב משימות מעבר לתרגום מכונה. הם מיישמים בהצלחה את המודל על ניתוח מחוזות בחירה באנגלית, ומראים את יכולת ההסתגלות שלו לבעיות שונות של העברת רצף.

מאמר 2: BERT: אימון מקדים של רובוטריקים דו-כיווניים עמוקים להבנת שפה

קישור: קרא כאן

סיכום נייר

אימון מקדים למודל שפה הוכח כיעיל לשיפור משימות שונות של עיבוד שפה טבעית. המאמר מבחין בין גישות מבוססות תכונה לבין גישות כוונון עדין ליישום ייצוגי שפה מאומנים מראש. BERT מוצג כדי לטפל במגבלות בגישות כוונון עדין, במיוחד אילוץ החד-כיווניות של מודלים של שפה סטנדרטית. המאמר מציע מטרת הדרכה מקדימה של "מודל שפה מסכה" (MLM), בהשראת משימת ה-Cloze, כדי לאפשר ייצוגים דו-כיווניים. משימת "חיזוי המשפט הבא" משמשת גם לאימון מקדים של ייצוגי צמד טקסט.

תובנות מפתח של מסמכי AI למפתחי GenAI

חשיבות אימון מקדים דו כיווני

המאמר מדגיש את המשמעות של אימון מקדים דו-כיווני לייצוגי שפה. שלא כמו מודלים קודמים, BERT משתמש במודלים של שפה ממוסכת כדי לאפשר ייצוגים דו-כיווניים עמוקים, המתגברים על מודלים של שפה חד-כיוונית ששימשו עבודות קודמות.

הפחתה בארכיטקטורות ספציפיות למשימה

BERT מדגים כי ייצוגים שהוכשרו מראש מפחיתים את הצורך בארכיטקטורות ספציפיות למשימה מהונדסים. זה הופך למודל הייצוג הראשון המבוסס על כוונון עדין המשיג ביצועים מתקדמים במגוון רחב של משימות ברמת המשפט וברמת האסימון, תוך ביצועים טובים יותר מארכיטקטורות ספציפיות למשימה.

התקדמות מתקדמת

BERT משיג תוצאות מתקדמות חדשות באחת עשרה משימות עיבוד שפה טבעית, מה שמציג את הרבגוניות שלה. שיפורים בולטים כוללים עלייה משמעותית בציון GLUE, דיוק MultiNLI ושיפורים במשימות תשובות לשאלות SQuAD v1.1 ו-v2.0.

תוכלו לקרוא גם: כוונון עדין של BERT עם דוגמנות שפה מסיכות

מאמר 3: GPT: מודלים של שפה הם לומדים מעטים

קישור: קרא כאן

סיכום נייר

המאמר דן בשיפורים שהושגו במשימות עיבוד שפה טבעית (NLP) על ידי הגדלת מודלים של שפה, תוך התמקדות ב GPT-3 (Generative Pre-trained Transformer 3), מודל שפה אוטורגרסיבי עם 175 מיליארד פרמטרים. המחברים מדגישים את זה בזמן האחרון דגמי NLP להפגין רווחים משמעותיים באמצעות אימון מקדים וכיוונון, לעתים קרובות הם דורשים מערכי נתונים ספציפיים למשימה עם אלפי דוגמאות לכוונון עדין. לעומת זאת, בני אדם יכולים לבצע משימות שפה חדשות עם מעט דוגמאות או הוראות פשוטות.

תובנות מפתח של מסמכי AI למפתחי GenAI

הגדלה משפרת את הביצועים של כמה צילומים
המחברים מוכיחים כי הגדלה של מודלים של שפה משפרת באופן משמעותי את הביצועים האגנוסטיים של משימות, עם מעט יריות. GPT-3, עם גודל הפרמטרים הגדול שלו, משיג לפעמים תחרותיות עם גישות כוונון עדין מתקדמות ללא כוונון עדין או עדכוני שיפוע ספציפיים למשימה.
ישימות רחבה

GPT-3 מציג ביצועים חזקים במשימות NLP שונות, כולל תרגום, תשובות לשאלות, משימות סגורות ומשימות הדורשות חשיבה תוך כדי תנועה או התאמת תחום.
אתגרים ומגבלות

בעוד ש-GPT-3 מציג יכולות למידה יוצאות דופן, המחברים מזהים מערכי נתונים שבהם הוא מתקשה ומדגישים סוגיות מתודולוגיות הקשורות לאימון על קורפוסי אינטרנט גדולים.
דור מאמרים דמוי אדם

GPT-3 יכול ליצור מאמרי חדשות שמעריכים אנושיים מתקשים להבדיל ממאמרים שנכתבו על ידי בני אדם.
השפעות חברתיות ושיקולים רחבים יותר

המאמר דן בהשפעות החברתיות הרחבות יותר של היכולות של GPT-3, במיוחד ביצירת טקסט דמוי אדם. ההשלכות של ביצועו במשימות שונות נחשבות במונחים של יישומים מעשיים ואתגרים פוטנציאליים.
מגבלות של גישות NLP נוכחיות

המחברים מדגישים את המגבלות של גישות ה-NLP הנוכחיות, במיוחד ההסתמכות שלהם על מערכי כוונון עדין ספציפיים למשימה, אשר מציבים אתגרים כמו הדרישה למערכי נתונים גדולים עם תוויות והסיכון להתאמת יתר להפצות משימות צרות. בנוסף, עולים חששות לגבי יכולת ההכללה של מודלים אלה מחוץ לגבולות חלוקת ההכשרה שלהם.

מאמר 4: CNNs: ImageNet Classification with Deep Convolutional Neural Networks

קישור: קרא כאן

סיכום נייר

המאמר מתאר פיתוח והדרכה של רשת עצבית קונבולוציונית גדולה ועמוקה (CNN) לסיווג תמונות במערך הנתונים של ImageNet Large Scale Visual Recognition Challenge (ILSVRC). המודל משיג שיפורים משמעותיים בדיוק הסיווג בהשוואה לשיטות קודמות מתקדמות.

תובנות מפתח של מסמכי AI למפתחי GenAI

אדריכלות מודל
הרשת העצבית שבה נעשה שימוש במחקר היא רשת CNN עמוקה עם 60 מיליון פרמטרים ו-650,000 נוירונים. הוא מורכב מחמש שכבות קונבולוציוניות, חלקן ואחריהן שכבות מאסף מקסימלי, ושלוש שכבות מחוברות במלואן עם softmax סופי של 1000 כיוונים לסיווג.

נתוני הדרכה

המודל מאומן על מערך נתונים משמעותי של 1.2 מיליון תמונות ברזולוציה גבוהה מתחרות ImageNet ILSVRC-2010. תהליך ההכשרה כולל סיווג תמונות ל-1000 כיתות שונות.

ביצוע
המודל משיג שיעורי שגיאה מובילים 1 ו-5 מובילים של 37.5% ו-17.0% בנתוני הבדיקה, בהתאמה. שיעורי טעויות אלו טובים במידה ניכרת מהמצב הקודם, מה שמצביע על יעילות הגישה המוצעת.

שיפורים בהתאמת יתר

המאמר מציג מספר טכניקות לטיפול בבעיות התאמת יתר, כולל נוירונים שאינם מרווים, יישום יעיל של GPU לאימון מהיר יותר ושיטת רגולציה הנקראת "נשירה" בשכבות מחוברות לחלוטין.
יעילות חישובית
למרות הדרישות החישוביות של הכשרת רשתות CNN גדולות, המאמר מציין שמעבדי גרפי גרפי נוכחיים והטמעות אופטימליות מאפשרים לאמן מודלים כאלה על תמונות ברזולוציה גבוהה.

תרומות
המאמר מדגיש את תרומות המחקר, לרבות אימון אחת מרשתות העצבים הקונבולוציוניות הגדולות ביותר על מערכי נתונים של ImageNet והשגת תוצאות מתקדמות בתחרויות ILSVRC.

תוכלו לקרוא גם: מדריך מקיף ללימוד רשתות עצביות מתגלגלות

מאמר 5: GATs: Graph Attention Networks

קישור: קרא כאן

סיכום נייר

המאמר מציג ארכיטקטורה מבוססת תשומת לב לסיווג צמתים בנתונים בעלי מבנה גרף, המציג את היעילות, הרבגוניות והביצועים התחרותיים שלו על פני אמות מידה שונות. השילוב של מנגנוני קשב מוכיח את עצמו ככלי רב עוצמה לטיפול בגרפים המובנים באופן שרירותי.

תובנות מפתח של מסמכי AI למפתחי GenAI

Graph Attention Networks (GATs)GATs ממנפים שכבות של תשומת לב עצמית מסווה כדי לטפל במגבלות בשיטות קודמות המבוססות על פיתולי גרף. הארכיטקטורה מאפשרת לצמתים להשתתף בתכונות השכונות שלהם, תוך ציון משקלים שונים לצמתים שונים מבלי להסתמך על פעולות מטריצה יקרות או ידע אפריורי של מבנה הגרף.

התמודדות עם אתגרים מבוססי ספקטרל

GATs עונים בו זמנית על מספר אתגרים ברשתות עצביות גרפיות מבוססות ספקטרלים. אתגרי Graph Attention Network (GAT) כוללים מסננים מקומיים במרחב, חישובים אינטנסיביים ומסננים שאינם מקומיים במרחב. בנוסף, GATs תלויים בבסיס העצמי של Laplacian, תורם ליישומם לבעיות אינדוקטיביות והתמרה.

ביצועים על פני בנצ'מרקים

מודלים של GAT משיגים או תואמים תוצאות מתקדמות על פני ארבעה מדדי גרפים מבוססים: Cora, Citeseer ו-Pubmed מערכי נתונים של רשת ציטוטים, כמו גם מערך נתונים של אינטראקציה בין חלבון לחלבון. אמות מידה אלה מכסות גם תרחישי למידה מתמרה וגם אינדוקטיבית, ומציגים את הרבגוניות של GATs.

השוואה לגישות קודמות

המאמר מספק סקירה מקיפה של גישות קודמות, כולל רשתות עצביות רקורסיביות, גרף רשתות עצביות (GNNs), שיטות ספקטרליות ולא ספקטרליות ומנגנוני קשב. GATs משלבים מנגנוני קשב, המאפשרים הקבלה יעילה על פני זוגות צמתים-שכנים ויישום לצמתים בעלי דרגות שונות.

יעילות וישימותGATs מציעים פעולה יעילה הניתנת להקבילה שניתן ליישם על צמתים גרפים בעלי דרגות שונות על ידי ציון משקלים שרירותיים לשכנים. המודל חל ישירות על בעיות למידה אינדוקטיביות, מה שהופך אותו למתאים למשימות שבהן הוא צריך להכליל לגרפים בלתי נראים לחלוטין.

קשר לדגמים קודמים

המחברים מציינים שניתן לנסח מחדש את GATs כמופע מסוים של MoNet, לחלוק קווי דמיון עם רשתות יחסים ולהתחבר ליצירות המשתמשות בפעולות תשומת לב בשכונה. מודל הקשב המוצע מושווה לגישות קשורות כמו Duan et al. (2017) ו-Denil et al. (2017).

מאמר 6: ViT: תמונה שווה 16×16 מילים: רובוטריקים לזיהוי תמונה בקנה מידה

קישור: קרא כאן

סיכום נייר

המאמר מכיר בדומיננטיות של ארכיטקטורות קונבולוציוניות בראייה ממוחשבת למרות הצלחתן של ארכיטקטורות טרנספורמר בעיבוד שפה טבעית. בהשראת היעילות והמדרגיות של השנאים ב-NLP, המחברים יישמו שנאי סטנדרטי ישירות על תמונות עם שינויים מינימליים.

הם מציגים את שנאי חזון (ViT), שבו תמונות מפוצלות לטלאים, ורצף ההטמעות הליניאריות של הטלאים הללו משמש כקלט לשנאי. המודל מאומן במשימות סיווג תמונות בצורה מפוקחת. בתחילה, כאשר מאומנים על מערכי נתונים בגודל בינוני כמו ImageNet ללא רגולציה חזקה, ViT משיג דיוקים מעט מתחת ל-ResNets דומים.

עם זאת, המחברים מגלים כי הכשרה בקנה מידה גדול חיוני להצלחתו של ViT, מעבר למגבלות המוטלות על ידי היעדר הטיות אינדוקטיביות מסוימות. כאשר הוא מאומן מראש על מערכי נתונים מסיביים, ViT מתגבר על רשתות קונבולוציוניות מתקדמות בכמה אמות מידה, כולל ImageNet, CIFAR-100 ו-VTAB. המאמר מדגיש את ההשפעה של קנה מידה בהשגת תוצאות יוצאות דופן עם ארכיטקטורות שנאי בראייה ממוחשבת.

תובנות מפתח של מסמכי AI למפתחי GenAI

שנאי בראיה ממוחשבת

המאמר מאתגר את ההסתמכות הרווחת על רשתות עצביות קונבולוציוניות (CNNs) עבור משימות ראייה ממוחשבת. זה מדגים ששנאי טהור, כשהוא מוחל ישירות על רצפים של תיקוני תמונה, יכול להשיג ביצועים מצוינים במשימות סיווג תמונות.

שנאי חזון (ViT)

המחברים מציגים את ה-Vision Transformer (ViT), מודל המשתמש במנגנוני קשב עצמי הדומים לרובוטריקים ב-NLP. ViT יכול להשיג תוצאות תחרותיות במדדים שונים של זיהוי תמונות, כולל ImageNet, CIFAR-100 ו-VTAB.

אימון מקדים ולמידה בהעברה

המאמר מדגיש את החשיבות של אימון מקדים על כמויות גדולות של נתונים, בדומה לגישה ב-NLP, ולאחר מכן העברת הייצוגים הנלמדים למשימות זיהוי תמונה ספציפיות. ViT, כאשר הוא מאומן מראש על מערכי נתונים מסיביים כמו ImageNet-21k או JFT-300M, מתעלה על רשתות קונבולוציוניות מתקדמות במדדים שונים.

יעילות חישוביתViT משיג תוצאות יוצאות דופן עם הרבה פחות משאבי חישוב במהלך האימון מאשר רשתות קונבולוציוניות מתקדמות. יעילות זו בולטת במיוחד כאשר הדגם מאומן מראש בקנה מידה גדול.

השפעת קנה מידה

המאמר מדגיש את המשמעות של קנה מידה בהשגת ביצועים מעולים עם ארכיטקטורות שנאי בראייה ממוחשבת. הכשרה בקנה מידה גדול על מערכי נתונים המכילים מיליוני עד מאות מיליוני תמונות עוזרת ל-ViT להתגבר על היעדר כמה הטיות אינדוקטיביות הקיימות ב-CNN.

מאמר 7: AlphaFold2: מבנה חלבון מדויק מאוד עם AlphaFold

קישור: קרא כאן

סיכום נייר

המאמר "AlphaFold2: מבנה חלבון מדויק עם AlphaFold" מציג את AlphaFold2, מודל למידה עמוקה המחזה במדויק מבני חלבון. AlphaFold2 ממנפת ארכיטקטורה חדשה המבוססת על תשומת לב ומשיגה פריצת דרך בקיפול חלבון.

תובנות מפתח של מסמכי AI למפתחי GenAI

AlphaFold2 משתמש ברשת עצבית עמוקה עם מנגנוני קשב כדי לחזות את המבנה התלת-ממדי של חלבונים מרצפי חומצות האמינו שלהם.
המודל הוכשר על מערך נתונים גדול של מבני חלבון ידועים והשיג דיוק חסר תקדים בתחרות קיפול החלבון ה-14 של הערכה קריטית של חיזוי מבנה חלבון (CASP14).
התחזיות המדויקות של AlphaFold2 עשויות לחולל מהפכה בגילוי תרופות, הנדסת חלבונים ותחומים אחרים של ביוכימיה.

מאמר 8: GANs: Generative Adversarial Nets

קישור: קרא כאן

סיכום נייר

המאמר מתייחס לאתגרים בהכשרת מודלים יצירתיים עמוקים ומציג גישה חדשנית הנקראת רשתות יריבות. במסגרת זו, מודלים גנרטיביים ואפליים עוסקים במשחק שבו המודל הגנרטיבי שואף לייצר דגימות שלא ניתן להבחין בהן מנתונים אמיתיים. לעומת זאת, המודל ההבחנה מבדיל בין מדגמים אמיתיים למדגמים שנוצרו. תהליך ההכשרה היריב מוביל לפתרון ייחודי, כאשר המודל הגנרטיבי משחזר את הפצת הנתונים.

תובנות מפתח של מסמכי AI למפתחי GenAI

מסגרת יריבות

המחברים מציגים מסגרת אדוורסרית שבה שני מודלים מאומנים בו-זמנית - מודל מחולל (G) הלוכד את התפלגות הנתונים ומודל אבחנה (D) המעריך את ההסתברות שמדגם הגיע מנתוני האימון ולא מהמודל הגנרטיבי.

משחק מינימקסהליך ההכשרה כרוך במיקסום ההסתברות שהמודל המפלה יעשה טעות. מסגרת זו מנוסחת כמשחק מינימקס לשני שחקנים, כאשר המודל הגנרטיבי שואף ליצור דגימות שלא ניתן להבחין בהן מנתונים אמיתיים, והמודל ההבחנה נועד לסווג האם דגימה אמיתית או נוצרת בצורה נכונה.

פתרון ייחודי

קיים פתרון ייחודי בפונקציות שרירותיות עבור G ו-D, כאשר G משחזר את התפלגות נתוני האימון ו-D שווה ל-1/2 בכל מקום. שיווי משקל זה מושג באמצעות תהליך ההכשרה היריב.

Perceptrons רב שכבתי (MLPs)המחברים מוכיחים שניתן לאמן את המערכת כולה באמצעות התפשטות לאחור כאשר תפיסות רב-שכבתיות מייצגות G ו-D. זה מבטל את הצורך בשרשראות מרקוב או ברשתות הסקת מסקנות משוערות במהלך אימון ויצירת דגימות.

אין הסקה משוערת

המסגרת המוצעת מונעת את הקשיים בקירוב חישובים הסתברותיים בלתי ניתנים לפתרון בהערכת סבירות מקסימלית. זה גם מתגבר על אתגרים במינוף היתרונות של יחידות ליניאריות חלקיות בהקשר הגנרטיבי.

מאמר 9: רוברטה: גישת קדם אימון BERT אופטימלית בצורה חזקה

קישור: קרא כאן

סיכום נייר

המאמר מתייחס לבעיית ההכשרה של BERT ומציג את RobERTa, גרסה אופטימלית העולה על הביצועים של BERT. השינויים בנוהל ההדרכה של RoBERTa והשימוש במערך נתונים חדשני (CC-NEWS) תורמים לתוצאות מתקדמות במשימות עיבוד שפה טבעית מרובות. הממצאים מדגישים את החשיבות של בחירות עיצוב ואסטרטגיות אימון באפקטיביות של אימון מקדים של מודל שפה. המשאבים שפורסמו, כולל המודל והקוד של RobERTa, תורמים לקהילת המחקר.

תובנות מפתח של מסמכי AI למפתחי GenAI

BERT תת אימון

המחברים מוצאים זאת ברט, מודל שפה בשימוש נרחב, לא הוכשר באופן משמעותי. על ידי הערכה קפדנית של ההשפעה של כוונון היפרפרמטר וגודל מערך האימון, הם מראים שניתן לשפר את BERT כך שיתאים או יעלה על הביצועים של כל הדגמים שפורסמו לאחריו.

מתכון אימון משופר (RoBERTa)

המחברים מציגים שינויים בהליך ההכשרה של BERT, ומניבים RobERTa. שינויים אלה כוללים תקופות אימון ממושכות עם קבוצות גדולות יותר, ביטול מטרת חיזוי המשפט הבא, אימון על רצפים ארוכים יותר והתאמת דפוס מיסוך דינמי לנתוני אימון.

תרומת מערך נתוניםהמאמר מציג מערך נתונים חדש בשם CC-NEWS, אשר דומה בגודלו למערכי נתונים אחרים בשימוש פרטי. הכללת מערך נתונים זה מסייעת לשלוט טוב יותר בהשפעות של גודל ערכת האימונים ותורמת לשיפור הביצועים במשימות במורד הזרם.

הישגי ביצועים

רוברטה, עם השינויים המוצעים, משיגה תוצאות מתקדמות במשימות מדד שונות, כולל GLUE, RACE ו-SQuAD. זה תואם או עולה על הביצועים של כל השיטות שלאחר ה-BERT במשימות כגון MNLI, QNLI, RTE, STS-B, SQuAD ו-RACE.

התחרותיות של אימון מקדים למודל שפה במסכה

המאמר מאשר מחדש כי מטרת ההכשרה של מודל השפה המסוכה, עם בחירות העיצוב הנכונות, היא תחרותית עם יעדי אימון אחרים שהוצעו לאחרונה.

משאבים שפורסמו

המחברים משחררים את מודל ה-RoBERTa שלהם, יחד עם קוד אימון מקדים וכיוונון מיושם ב- PyTorch, התורמים לשחזור ולחקירה נוספת של הממצאים שלהם.

גם לקרוא: היכרות עדינה עם רוברטה

מאמר 10: NeRF: ייצוג סצינות כשדות זוהר עצבי לסינתזה של מבט

קישור: קרא כאן

סיכום נייר

אופטימיזציה כוללת מזעור השגיאה בין תמונות שנצפו עם תנוחות מצלמה ידועות לבין התצוגות המוצגות מהייצוג הרציף של הסצנה. המאמר מתייחס לאתגרים הקשורים להתכנסות ויעילות על ידי הכנסת קידוד מיקום לטיפול בפונקציות בתדר גבוה יותר והצעת הליך דגימה היררכי כדי להפחית את מספר השאילתות הדרושות לדגימה נאותה.

תובנות מפתח של מסמכי AI למפתחי GenAI`

ייצוג רציף של סצנה

המאמר מציג שיטה לייצוג סצנות מורכבות כשדות זוהר עצבי 5D באמצעות רשתות תפיסת רב שכבתיות בסיסיות (MLP).

עיבוד שניתן להבדיל

הליך הרינדור המוצע מבוסס על טכניקות עיבוד נפח קלאסיות, המאפשרות אופטימיזציה מבוססת גרדיאנט באמצעות תמונות RGB סטנדרטיות.

אסטרטגיית דגימה היררכית

אסטרטגיית דגימה היררכית מוצגת כדי לייעל את קיבולת ה-MLP לעבר אזורים עם תוכן סצנה גלוי, תוך התייחסות לבעיות התכנסות.

קידוד מיקוםשימוש בקידוד מיקום למיפוי קואורדינטות 5D קלט לחלל בעל ממדים גבוהים יותר מאפשר אופטימיזציה מוצלחת של שדות זוהר עצביים עבור תוכן סצינה בתדר גבוה.

השיטה המוצעת עולה על גישות סינתזת תצוגה מתקדמות, כולל התאמת ייצוגי תלת מימד עצביים ואימון רשתות קונבולוציוניות עמוקות. מאמר זה מציג ייצוג סצנה עצבית מתמשכת לעיבוד תצוגות רומן פוטוריאליסטיות ברזולוציה גבוהה מתמונות RGB בהגדרות טבעיות, עם השוואות נוספות המוצגות בסרטון המשלים כדי להדגיש את יעילותה בטיפול בגיאומטריה ומראה סצינה מורכבים.

מאמר 11: FunSearch: תגליות מתמטיות מחיפוש תוכניות עם מודלים של שפות גדולות

קישור: קרא כאן

סיכום נייר

המאמר מציג את FunSearch, גישה חדשה למינוף מודלים של שפה גדולה (LLMs) לפתרון בעיות מורכבות, במיוחד בגילוי מדעי. האתגר העיקרי שעומד בפנינו הוא התרחשות של קונפלבולציות (הזיות) ב-LLMs, המובילות להצהרות סבירות אך שגויות. FunSearch משלב לימודי LLM מאומנים מראש עם מעריך שיטתי בהליך אבולוציוני כדי להתגבר על מגבלה זו.

תובנות מפתח של מסמכי AI למפתחי GenAI

פתרון בעיות עם LLMs
המאמר עוסק בסוגיית תכניות לימודים מתעסקות או לא מצליחות לייצר רעיונות חדשים ופתרונות נכונים לבעיות מורכבות. הוא מדגיש את החשיבות של מציאת רעיונות חדשים, נכונים לאימות, במיוחד עבור אתגרים מתמטיים ומדעיים.

הליך אבולוציוני - FunSearch

FunSearch משלב LLM מאומן מראש עם מעריך בתהליך אבולוציוני. זה מתפתח באופן איטרטיבי תוכניות בעלות ניקוד נמוך לתוכניות בעלות ניקוד גבוה, ומבטיח גילוי של ידע חדש. התהליך כרוך בהנחיה מיטבית, התפתחות שלדי תוכניות, שמירה על גיוון תוכניות ושינוי קנה מידה אסינכרוני.

יישום לקומבינטוריקה קיצונית

המאמר מדגים את האפקטיביות של FunSearch בבעיית ה-cap set בקומבינטוריקה קיצונית. FunSearch מגלה קונסטרוקציות חדשות של ערכות גדולות, עולות על התוצאות הידועות ביותר ומספקות את השיפור הגדול ביותר מזה 20 שנה לגבול התחתון האסימפטוטי.

בעיה אלגוריתמית - אריזת סלים מקוונת

FunSearch מוחל על בעיית אריזת הפחים המקוונת, מה שמוביל לגילוי אלגוריתמים חדשים שעולים על אלו המסורתיים בהפצות עניין שנלמדו היטב. היישומים הפוטנציאליים כוללים שיפור אלגוריתמים לתזמון עבודה.

תוכניות מול פתרונותFunSearch מתמקדת ביצירת תוכניות המתארות כיצד לפתור בעיה ולא בהוצאת פתרונות ישירות. תוכניות אלה נוטות להיות ניתנות לפירוש יותר, מקלות על אינטראקציות עם מומחי תחום והן קלות יותר לפריסה מאשר סוגים אחרים של תיאורים, כגון רשתות עצביות.

השפעה בין-תחומית

המתודולוגיה של FunSearch מאפשרת לחקור מגוון רחב של בעיות, מה שהופך אותה לגישה רב-תכליתית עם יישומים בין-תחומיים. המאמר מדגיש את הפוטנציאל שלו ליצירת תגליות מדעיות ניתנות לאימות באמצעות LLMs.

מאמר 12: VAEs: Auto-Encoding Variational Bayes

קישור: קרא כאן

סיכום נייר

המאמר "קידוד וריאציונלי בייס אוטומטי" עוסק באתגר של הסקה ולמידה יעילה במודלים הסתברותיים מכוונים עם משתנים סמויים מתמשכים, במיוחד כאשר ההתפלגות האחורית בלתי ניתנת לפתרון ועוסקות במערכי נתונים גדולים. המחברים מציעים אלגוריתם הסקה וריאציות סטוכסטיות ולמידה שמתרחב היטב עבור מערכי נתונים גדולים ונשאר ישים גם בהפצות אחוריות בלתי ניתנות לפתרון.

תובנות מפתח של מסמכי AI למפתחי GenAI

פרמטריזציה מחדש של גבול תחתון וריאציוני

המאמר מדגים פרמטריזציה מחדש של הגבול התחתון הווריאציוני, וכתוצאה מכך אומדן הגבול התחתון. אומדן זה ניתן לאופטימיזציה באמצעות שיטות שיפוע סטוכסטיות סטנדרטיות, מה שהופך אותו ליעיל מבחינה חישובית.

הסקה אחורית יעילה למשתנים סמויים מתמשכיםהמחברים מציעים את האלגוריתם Auto-Encoding VB (AEVB) עבור מערכי נתונים עם משתנים סמויים מתמשכים לכל נקודת נתונים. אלגוריתם זה משתמש באומדן Stochastic Gradient Variational Bayes (SGVB) כדי לייעל מודל זיהוי, המאפשר הסקה אחורית משוערת יעילה באמצעות דגימת אבות. גישה זו נמנעת מתכניות מסקנות איטרטיביות יקרות כמו Markov Chain Monte Carlo (MCMC) עבור כל נקודת נתונים.

יתרונות תיאורטיים ותוצאות ניסויים

היתרונות התיאורטיים של השיטה המוצעת באים לידי ביטוי בתוצאות הניסוי. המאמר מציע שמודל הפרמטריזציה והזיהוי מחדש מוביל ליעילות חישובית ומדרגיות, מה שהופך את הגישה לישימה על מערכי נתונים גדולים ובמצבים שבהם החלק האחורי אינו ניתן לפתרון.

גם לקרוא: חשיפת מהות הסטוכסטי בלימוד מכונה

מאמר 13: זיכרון לטווח קצר ארוך

קישור: קרא כאן

סיכום נייר

המאמר עוסק באתגר של לימוד אחסון מידע על פני מרווחי זמן ממושכים ברשתות עצביות חוזרות. היא מציגה שיטה חדשה ויעילה מבוססת-הדרגה הנקראת "זיכרון קצר טווח ארוך" (LSTM), המתגברת על בעיות של זרימת שגיאה חוזרת ודעיכה. LSTM אוכף זרימת שגיאות מתמדת דרך "קרוסלות שגיאות קבועות" ומשתמשת ביחידות שער כפל כדי לשלוט בגישה. עם מורכבות מרחב-זמן מקומית (O(1) לצעד זמן ומשקל), תוצאות הניסוי מראות ש-LSTM מתעלה על אלגוריתמים קיימים לגבי מהירות למידה ושיעורי הצלחה, במיוחד עבור משימות עם פיגור זמן ממושך.

תובנות מפתח של מסמכי AI למפתחי GenAI

ניתוח הבעיה

המאמר מספק ניתוח מפורט של האתגרים הקשורים לזרימת שגיאה חוזרת ברשתות עצביות חוזרות, תוך הדגשת הבעיות של אותות שגיאה שמתפוצצים או נעלמים עם הזמן.

היכרות עם LSTM

המחברים מציגים את LSTM כארכיטקטורה חדשנית שנועדה לטפל בבעיות של אותות שגיאה נעלמים ומתפוצצים. LSTM משלבת זרימת שגיאות קבועה דרך יחידות מיוחדות ומשתמשת ביחידות שער כפל כדי לווסת גישה לזרימת שגיאה זו.

תוצאות ניסיוניות

באמצעות ניסויים בנתונים מלאכותיים, המאמר מדגים ש-LSTM מתעלה על אלגוריתמי רשת חוזרים אחרים, כולל BPTT, RTRL, מתאם מפל חוזר, Elman nets ו-Neural Sequence Chunking. LSTM מראה למידה מהירה יותר ושיעורי הצלחה גבוהים יותר, במיוחד בפתרון משימות מורכבות בפיגור זמן ארוך.

מקומי במרחב ובזמן

LSTM מתואר כארכיטקטורה מקומית במרחב ובזמן, כאשר המורכבות החישובית לכל שלב ומשקל הם O(1).

יָשִׂימוּת
ארכיטקטורת LSTM המוצעת פותרת ביעילות משימות מורכבות ומלאכותיות בפיגור ארוך זמן שלא טופלו בהצלחה על ידי אלגוריתמי רשת חוזרים קודמים.

מגבלות ויתרונות

המאמר דן במגבלות וביתרונות של LSTM, ומספק תובנות לגבי הישימות המעשית של הארכיטקטורה המוצעת.

גם לקרוא: מה זה LSTM? מבוא לזיכרון ארוך טווח קצר

מאמר 14: לימוד מודלים חזותיים הניתנים להעברה מפיקוח על שפה טבעית

קישור: קרא כאן

סיכום נייר

המאמר בוחן אימון מערכות ראייה ממוחשבת מתקדמות על ידי למידה ישירה מטקסט גולמי על תמונות במקום להסתמך על סטים קבועים של קטגוריות אובייקטים שנקבעו מראש. המחברים מציעים משימת אימון מקדימה של חיזוי איזה כיתוב מתאים לתמונה נתונה, באמצעות מערך נתונים של 400 מיליון זוגות (תמונה, טקסט) שנאספו מהאינטרנט. המודל המתקבל, CLIP (Contrastive Language-Image Pre-training), מדגים למידה יעילה וניתנת להרחבה של ייצוגי תמונה. לאחר אימון מקדים, השפה הטבעית מתייחסת למושגים חזותיים, ומאפשרת העברה של אפס-shot למשימות שונות במורד הזרם. CLIP מבוסס על יותר מ-30 מערכי נתונים של ראייה ממוחשבת, המציגים ביצועים תחרותיים ללא הכשרה ספציפית למשימה.

תובנות מפתח של מסמכי AI למפתחי GenAI

הדרכה בנושא שפה טבעית לראייה ממוחשבת

המאמר בוחן שימוש בפיקוח על שפה טבעית כדי להכשיר מודלים של ראייה ממוחשבת במקום גישת ההדרכה המסורתית על מערכי נתונים עם תווית קהל כמו ImageNet.

משימת טרום אימוןהמחברים מציעים משימת טרום אימון פשוטה: חיזוי איזה כיתוב מתאים לתמונה נתונה. משימה זו משמשת ללימוד ייצוגי תמונה חדישים מאפס על מערך נתונים עצום של 400 מיליון זוגות (תמונה, טקסט) שנאספו באינטרנט.

העברת אפס שוט

לאחר אימון מקדים, המודל משתמש בשפה טבעית כדי להתייחס למושגים חזותיים שנלמדו או לתאר מושגים חדשים. זה מאפשר העברה אפסית של המודל למשימות במורד הזרם מבלי להידרש לאימון מערך נתונים ספציפי.

Benchmarking על משימות שונות

המאמר מעריך את הביצועים של הגישה המוצעת על למעלה מ-30 מערכי נתונים שונים של ראייה ממוחשבת, המכסים משימות כגון OCR, זיהוי פעולה בסרטונים, לוקליזציה גיאוגרפית וסיווג אובייקטים עדין.

ביצועים תחרותיים

המודל מדגים ביצועים תחרותיים עם קווי בסיס בפיקוח מלא על משימות שונות, לעתים קרובות תואמות או עולה על הדיוק של מודלים שהוכשרו על מערכי נתונים ספציפיים למשימה ללא הכשרה נוספת ספציפית למערך נתונים.

מחקר מדרגיות

המחברים חוקרים את יכולת ההרחבה של הגישה שלהם על ידי הכשרת סדרה של שמונה מודלים עם רמות שונות של משאבי חישוב. נמצא כי ביצועי ההעברה הם פונקציה הניתנת לחיזוי חלק של מחשוב.

עמידה בדגם

המאמר מדגיש כי דגמי CLIP עם צילום אפס הם חזקים יותר מדגמי ImageNet בפיקוח דיוק שווה ערך, דבר המצביע על כך שהערכת צילום אפס של מודלים אגנוסטיים למשימה מספקת מדד מייצג יותר ליכולת המודל.

מאמר 15: לורה: התאמה בדרגה נמוכה של מודלים של שפות גדולות

קישור: קרא כאן

סיכום נייר

המאמר מציע את LoRA כשיטה יעילה להתאמת מודלים גדולים של שפה מאומנים מראש למשימות ספציפיות, תוך התייחסות לאתגרי פריסה הקשורים לגודלם ההולך וגדל. השיטה מפחיתה באופן משמעותי פרמטרים הניתנים לאימון ודרישות זיכרון GPU תוך שמירה או שיפור איכות הדגם על פני אמות מידה שונות. יישום הקוד הפתוח מקל עוד יותר על אימוץ LoRA ביישומים מעשיים.

תובנות מפתח של מסמכי AI למפתחי GenAI

1. הצהרת בעיה

אימון מקדים בקנה מידה גדול ואחריו כוונון עדין הוא גישה נפוצה בעיבוד שפה טבעית.
כוונון עדין הופך פחות אפשרי ככל שהדגמים גדלים, במיוחד בעת פריסת מודלים עם פרמטרים מסיביים, כגון GPT-3 (175 מיליארד פרמטרים).

2. פתרון מוצע: התאמה בדרג נמוך (LoRA)

המאמר מציג את LoRA, שיטה המקפיאה משקולות של מודלים מאומנים מראש ומציגה מטריצות פירוק דירוג הניתנות לאימון בכל שכבה של ארכיטקטורת ה-Transformer.
LoRA מפחית משמעותית את מספר הפרמטרים הניתנים לאימון עבור משימות במורד הזרם בהשוואה לכוונון מלא.

3. היתרונות של LoRA

הפחתת פרמטרים: בהשוואה לכוונון עדין, LoRA יכולה להפחית את מספר הפרמטרים הניתנים לאימון עד פי 10,000, מה שהופך אותו ליעילה יותר מבחינה חישובית.
יעילות זיכרון: LoRA מקטין את דרישות הזיכרון של GPU עד פי 3 בהשוואה לכוונון עדין.
איכות הדגם: למרות שיש פחות פרמטרים ניתנים לאימון, LoRA מתפקד ברמה שווה או טוב יותר מאשר כוונון עדין מבחינת איכות הדגם בדגמים שונים, כולל RoBERTa, DeBERTa, GPT-2 ו-GPT-3.

4. התגברות על אתגרי הפריסה

המאמר מתייחס לאתגר של פריסת מודלים עם פרמטרים רבים על ידי הצגת LoRA, המאפשר החלפת משימות יעילה מבלי להכשיר מחדש את המודל כולו.

5. יעילות והשהיית מסקנות נמוכה

LoRA מאפשר שיתוף מודל מאומן מראש לבניית מודולי LoRA מרובים למשימות שונות, תוך הפחתת דרישות האחסון ותקורה של החלפת משימות.
האימון נעשה יעיל יותר, תוך הורדת מחסום החומרה לכניסה עד פי 3 בעת שימוש באופטימיזציה אדפטיבית.

6. תאימות ואינטגרציה

LoRA תואם לשיטות קודמות שונות וניתן לשלב איתן, כמו כוונון קידומת.
העיצוב הליניארי המוצע מאפשר למזג מטריצות הניתנות לאימון עם משקלים קפואים במהלך הפריסה, ללא הצגת חביון מסקנות נוסף בהשוואה לדגמים מכוונים לחלוטין.

7. חקירה אמפירית

המאמר כולל חקירה אמפירית של חוסר דירוג בהתאמת מודל שפה, המספק תובנות לגבי היעילות של גישת LoRA.

8. יישום קוד פתוח

המחברים מספקים חבילה המאפשרת את השילוב של LoRA עם מודלים של PyTorch והטמעות שחרור ונקודות ביקורת של מודלים עבור RoBERTa, DeBERTa ו-GPT-2.

אתה יכול גם לקרוא: כוונון עדין יעיל של פרמטרים של דגמי שפה גדולים עם LoRA ו-QLoRA

סיכום

לסיכום, התעמקות ב-15 מסמכי ה-AI החיוניים למפתחי GenAI המודגשים במאמר זה אינה רק המלצה אלא הכרחי אסטרטגי לכל מפתח שואף. מסמכי AI אלה מציעים מסע מקיף בנוף המגוון של בינה מלאכותית, המשתרעת על פני תחומים קריטיים כמו עיבוד שפה טבעית, ראייה ממוחשבת ומעבר לכך. על ידי התעמקות בתובנות ובחידושים המוצגים במאמרים אלה, מפתחים מקבלים הבנה מעמיקה של הטכניקות והאלגוריתמים החדשניים של התחום.