צמיחת רשתות עצביות דורשת קנה מידה חסר תקדים של מוליכים למחצה

צומת המקור: 1878456

האמת היא שאנחנו רק בתחילתה של מהפכת הבינה המלאכותית (AI). היכולות של AI רק עכשיו מתחילות להראות רמזים למה צופן העתיד. לדוגמה, מכוניות משתמשות במודלים גדולים ומורכבים של רשתות עצבים כדי לא רק להבין את הסביבה שלהן, אלא גם לנווט ולשלוט בעצמן. עבור כל יישום חייבים להיות נתוני הדרכה ליצירת רשתות שימושיות. גודלן של פעולות ההכשרה וההסקה גדלות במהירות כאשר נתונים שימושיים בעולם האמיתי משולבים במודלים. בואו נסתכל על הצמיחה של מודלים בשנים האחרונות כדי להבין איך זה מניע את הצרכים של כוח עיבוד לאימון והסקת מסקנות.

צמיחת רשת עצבית
צמיחת רשת עצבית

במצגת בפורום Ansys 2021 Ideas Digital, סיפק סמנכ"ל ההנדסה ב-Cerebras, Dhiraj Mallik, קצת תובנות לגבי הצמיחה של מודלים של רשתות עצביות. בשנתיים האחרונות גדל גודל הדגם פי 1000, מ-BERT Base (110 MB) ל-GPT-3 (175 GB). ובפתח, יש את דגם MSFT-1T, בגודל של 1 TB. דגם ה-GPT-3 - שהוא נושא מעניין משלו - הוכשר עם חומרה קונבנציונלית באמצעות 1024 GPUs במשך 4 חודשים. זהו מודל עיבוד שפה טבעית (NLP) המשתמש ברוב נתוני הטקסט באינטרנט ובמקורות אחרים. הוא פותח על ידי Open AI, וכעת הוא הבסיס ל-OpenAI Codex, שהוא אפליקציה שיכולה לכתוב קוד תכנות שימושי במספר שפות מהוראות שפה פשוטות של משתמשים. ניתן להשתמש ב-GPT-3 כדי לכתוב מאמרים קצרים שרוב הקוראים לא יכולים לדעת שנכתבו על ידי תוכנית בינה מלאכותית.

כפי שניתן לראות לעיל, לא ניתן להפעיל 1024 GPUs למשך 4 חודשים. בהרצאתו שכותרתה "הספקת האצת AP חסרת תקדים: מעבר לחוק מור" דהיראג' מדגיש שההתקדמות הדרושה לתמיכה ברמה זו של צמיחת מוליכים למחצה היא הרבה מעבר למה שהתרגלנו לראות עם חוק מור. בתגובה לצורך הנתפס הזה בשוק, Cerebras הוציאה את מנוע ה-AI של WSE-1, בקנה מידה רקיק, בשנת 2019 - גדול פי 56 מכל שבב שיוצר אי פעם. שנה וחצי לאחר מכן הכריזו על ה-WSE-2, שוב השבב הגדול ביותר שכל אחד בנוי איתו:

  • 6 טריליון טרנזיסטורים
  • 850,000 ליבות AI מותאמות
  • 40 GB RAM
  • רוחב פס זיכרון של 20 פטה-בייט לשנייה
  • רוחב פס של 220 פטה-בייט בד
  • נבנה עם תהליך N7 של TSMC
  • רקיק מכיל 84 קוביות, כל אחת 550 מ"מ2.

מערכת CS-2 המקופלת את ה-WSE-2 יכולה להתאים לדגמי AI עם 120 טריליון פרמטרים. מה שעוד יותר מרשים הוא שניתן לבנות מערכות CS-2 באשכולות של 192 יחידות כדי לספק שיפורי ביצועים כמעט ליניאריים. Cerebras פיתחה תת-מערכת זיכרון שמפרקת זיכרון ומחשוב כדי לספק קנה מידה טוב יותר ותפוקה משופרת עבור דגמים גדולים במיוחד. Cerebras פיתחה גם אופטימיזציות לדלילות במערכות אימון, מה שחוסך זמן וכוח.

המצגת של Dhiraj מפרטת יותר את היכולות שלהם, במיוחד בתחום קנה המידה ביעילות עם דגמים גדולים יותר כדי לשמור על תפוקה וקיבולת. מנקודת מבט של מוליכים למחצה, מעניין גם לראות כיצד Cerebras ניתחה את ירידת ה-IR, אלקטרומיגרציה ו-ESD על עיצוב שגדול ב-2 סדרי גודל מכל דבר אחר שניסה אי פעם על ידי תעשיית המוליכים למחצה. Dhiraj מדבר על האופן שבו בכל רמה של העיצוב - אריחים, בלוק, ורקיק מלא - Cerebras השתמשה ב-Ansys RedHawk-SC על פני מספר רב של מעבדים לצורך ביטול IR סטטי ודינאמי. RedHawk-SC שימש גם עבור בדיקת אלקטרו-הגירה ובדיקות אלקטרו-אות. באופן דומה, הם השתמשו ב-Ansys Pathfinder לבדיקת עמידות ESD וצפיפות זרם.

עם חתיכת סיליקון כל כך גדולה ב-7 ננומטר, החלטות הכלים הן פשוטו כמשמעו "לעשות או להישבר". בניית סיליקון המשבשת הזו דורשת הרבה בחירות שקולה מאוד בתהליך הפיתוח, וקיבולת שאין שני לה היא כמובן הדאגה העיקרית. עם זאת, כפי שהמצגת של Dhiraj מראה בבירור, רמת כוח העיבוד המוגבר של CS-2 נחוצה כדי לנהל את קצב הצמיחה שאנו רואים במודלים של AI/ML. אין ספק שנראה חידושים שהם מעבר לדמיון שלנו כיום בתחום ה-AI. בדיוק כפי שהרשת והענן שינו את הטכנולוגיה ואפילו את החברה, אנו יכולים לצפות שהפיתוח של טכנולוגיית AI חדשה תשנה את עולמנו בדרכים דרמטיות. אם אתה מעוניין ללמוד עוד על סיליקון Cerebras, עיין במצגת של Dhiraj בפורום הדיגיטלי של Ansys IDEAS בכתובת www.ansys.com/ideas.

שתף את הפוסט הזה באמצעות: מקור: https://semiwiki.com/eda/303587-neural-network-growth-requires-unprecedented-semiconductor-scaling/

בול זמן:

עוד מ Semiwiki