הכשרת דגמי LLM גדולים עם מיליארדים עד טריליון פרמטרים במחשב העל של ORNL

הכשרת דגמי LLM גדולים עם מיליארדים עד טריליון פרמטרים במחשב העל של ORNL

צומת המקור: 3065936

מאמר טכני שכותרתו "אופטימיזציה של הדרכה מבוזרת על גבול עבור מודלים של שפה גדולים" פורסם על ידי חוקרים במעבדה הלאומית של Oak Ridge (ORNL) ובאוניברסיטת פריז-סקליי.

תקציר:

"מודלים של שפה גדולה (LLMs) הוכיחו הצלחה יוצאת דופן כמודלים בסיסיים, והועלו ליישומים שונים במורד הזרם באמצעות כוונון עדין. מחקרים אחרונים על קנה מידה אובדן הוכיחו את הביצועים המעולים של LLMs גדולים יותר בהשוואה לעמיתיהם הקטנים יותר. אף על פי כן, הכשרת לימודי LLM עם מיליארדי פרמטרים מציבה אתגרים משמעותיים ודורשת משאבי חישוב ניכרים. לדוגמה, אימון מודל בסגנון GPT פרמטר אחד של טריליון על 20 טריליון אסימונים מצריך 120 מיליון פריצות חישוב מדהימות. מחקר זה בוחן אסטרטגיות אימון מבוזרות יעילות כדי לחלץ את החישוב הזה מ-Frontier, מחשב העל הראשון בעולם המוקדש למדע פתוח. אנו מאפשרים וחוקרים טכניקות אימון מקבילות למודלים ונתונים שונים, כגון מקביליות טנזור, מקביליות צינורות ומקביליות נתונים מרוסקים, כדי להקל על אימון מודל של טריליון פרמטרים על Frontier. אנו מעריכים באופן אמפירי את הטכניקות הללו ואת הפרמטרים המשויכים אליהן כדי לקבוע את השפעתן על טביעת הרגל של הזיכרון, זמן השהיית התקשורת והיעילות החישובית של ה-GPU. אנו מנתחים את יחסי הגומלין המורכבים בין הטכניקות הללו ומוצאים אסטרטגיה לשילובן כדי להשיג תפוקה גבוהה באמצעות כוונון היפרפרמטרים. זיהינו אסטרטגיות יעילות לאימון LLMs גדולים בגדלים שונים באמצעות ניתוח אמפירי וכוונון היפרפרמטרים. עבור 22 מיליארד, 175 מיליארד ו-1 טריליון פרמטרים, השגנו תפוקות GPU של 38.38%36.14%, ו 31.96%, בהתאמה. להכשרה של מודל 175 מיליארד פרמטרים ומודל 1 טריליון פרמטר, השגנו 100% יעילות קנה מידה חלשה ב-1024 ו-3072 MI250X GPUs, בהתאמה. השגנו גם יעילות קנה מידה חזקה של 89% ו 87% עבור שני הדגמים הללו".

מצא נייר טכני כאן. פורסם בדצמבר 2023 (הדפסה מוקדמת).

דאש, סג'אל, אייזק לינגאס, ג'ונקי יין, שיאו וואנג, רומיין אג'לה, גואוג'ינג קונג, פיי וואנג ופרסאנה באלפראקש. "אופטימיזציה של הדרכה מבוזרת על Frontier עבור מודלים של שפות גדולות." arXiv preprint arXiv:2312.12705 (2023).

לקריאה נוספת
בינה מלאכותית דוהרת אל הקצה
הסקת מסקנות ואימונים מסוימים נדחפים למכשירים קטנים יותר ככל שה-AI מתפשט ליישומים חדשים.

בול זמן:

עוד מ הנדסה למחצה