A technical paper titled “Optimizing Distributed Training on Frontier for Large Language Models” was published by researchers at Oak Ridge National Laboratory (ORNL) and Universite Paris-Saclay.
خلاصہ:
“Large language models (LLMs) have demonstrated remarkable success as foundational models, benefiting various downstream applications through fine-tuning. Recent studies on loss scaling have demonstrated the superior performance of larger LLMs compared to their smaller counterparts. Nevertheless, training LLMs with billions of parameters poses significant challenges and requires considerable computational resources. For example, training a one trillion parameter GPT-style model on 20 trillion tokens requires a staggering 120 million exaflops of computation. This research explores efficient distributed training strategies to extract this computation from Frontier, the world’s first exascale supercomputer dedicated to open science. We enable and investigate various model and data parallel training techniques, such as tensor parallelism, pipeline parallelism, and sharded data parallelism, to facilitate training a trillion-parameter model on Frontier. We empirically assess these techniques and their associated parameters to determine their impact on memory footprint, communication latency, and GPU’s computational efficiency. We analyze the complex interplay among these techniques and find a strategy to combine them to achieve high throughput through hyperparameter tuning. We have identified efficient strategies for training large LLMs of varying sizes through empirical analysis and hyperparameter tuning. For 22 Billion, 175 Billion, and 1 Trillion parameters, we achieved GPU throughputs of 38.38%, 36.14%، اور 31.96%, respectively. For the training of the 175 Billion parameter model and the 1 Trillion parameter model, we achieved 100% weak scaling efficiency on 1024 and 3072 MI250X GPUs, respectively. We also achieved strong scaling efficiencies of 89% اور 87% for these two models.”
تلاش کریں یہاں تکنیکی کاغذ. شائع شدہ دسمبر 2023 (پری پرنٹ)۔
Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang, and Prasanna Balaprakash. “Optimizing Distributed Training on Frontier for Large Language Models.” arXiv preprint arXiv:2312.12705 (2023).
مزید پڑھنا
AI ریس ٹو دی ایج
اندازہ لگانے اور کچھ تربیت کو چھوٹے آلات پر دھکیلا جا رہا ہے کیونکہ AI نئی ایپلی کیشنز میں پھیلتا ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://semiengineering.com/training-large-llm-models-with-billions-to-trillion-parameters-on-ornls-frontier-supercomputer/
- 1
- 120
- 20
- 2023
- 22
- a
- حاصل
- حاصل کیا
- AI
- بھی
- کے درمیان
- تجزیہ
- تجزیے
- اور
- ایپلی کیشنز
- کیا
- AS
- تشخیص کریں
- منسلک
- At
- کیا جا رہا ہے
- فائدہ مند
- ارب
- اربوں
- by
- چیلنجوں
- جمع
- مواصلات
- مقابلے میں
- پیچیدہ
- حساب
- کمپیوٹیشنل
- کافی
- ہم منصبوں
- اعداد و شمار
- دسمبر
- وقف
- demonstrated,en
- اس بات کا تعین
- کے الات
- تقسیم کئے
- تقسیم کی تربیت
- استعداد کار
- کارکردگی
- ہنر
- کو چالو کرنے کے
- مثال کے طور پر
- دریافت کرتا ہے
- نکالنے
- سہولت
- مل
- پہلا
- فوٹ پرنٹ
- کے لئے
- بنیادی
- سے
- فرنٹیئر
- فرنٹیئر سپر کمپیوٹر
- GPU
- GPUs
- ہے
- یہاں
- ہائی
- HTTPS
- ہائپر پیرامیٹر ٹیوننگ
- کی نشاندہی
- اثر
- in
- کی تحقیقات
- فوٹو
- تجربہ گاہیں
- زبان
- بڑے
- بڑے
- تاخیر
- بند
- ریاضی
- یاد داشت
- دس لاکھ
- ماڈل
- ماڈل
- قومی
- پھر بھی
- نئی
- بلوط
- اوک ریس قومی لیبارٹری
- of
- on
- ایک
- کھول
- ORNL
- کاغذ.
- متوازی
- پیرامیٹر
- پیرامیٹرز
- کارکردگی
- پائپ لائن
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- متصور ہوتا ہے
- شائع
- دھکیل دیا
- ریس
- حال ہی میں
- قابل ذکر
- کی ضرورت ہے
- تحقیق
- محققین
- وسائل
- بالترتیب
- رومن
- s
- سکیلنگ
- سائنس
- تیز
- اہم
- سائز
- چھوٹے
- کچھ
- اسپریڈز
- حیرت زدہ
- حکمت عملیوں
- حکمت عملی
- مضبوط
- مطالعہ
- کامیابی
- اس طرح
- سپر کمپیوٹر
- اعلی
- ٹیکنیکل
- تکنیک
- ۔
- ان
- ان
- یہ
- اس
- کے ذریعے
- تھرو پٹ
- عنوان
- کرنے کے لئے
- ٹوکن
- ٹریننگ
- ٹریلین
- دو
- مختلف
- مختلف
- وانگ
- تھا
- we
- ساتھ
- دنیا کی
- ژاؤ
- زیفیرنیٹ