آموزش مدل های بزرگ LLM با میلیاردها تا تریلیون پارامتر در ابررایانه Frontier ORNL

آموزش مدل های بزرگ LLM با میلیاردها تا تریلیون پارامتر در ابررایانه Frontier ORNL

گره منبع: 3065936

یک مقاله فنی با عنوان "بهینه سازی آموزش توزیع شده در مرز برای مدل های زبان بزرگ" توسط محققان آزمایشگاه ملی Oak Ridge (ORNL) و دانشگاه پاریس-ساکلی منتشر شد.

چکیده:

مدل‌های زبان بزرگ (LLM) موفقیت چشمگیری را به عنوان مدل‌های پایه از خود نشان داده‌اند که از طریق تنظیم دقیق، از برنامه‌های مختلف پایین‌دستی سود می‌برند. مطالعات اخیر در مورد مقیاس گذاری ضرر، عملکرد برتر LLM های بزرگتر را در مقایسه با همتایان کوچکترشان نشان داده است. با این وجود، آموزش LLM ها با میلیاردها پارامتر چالش های مهمی را به همراه دارد و به منابع محاسباتی قابل توجهی نیاز دارد. به عنوان مثال، آموزش یک مدل یک تریلیون پارامتری به سبک GPT بر روی 20 تریلیون توکن به 120 میلیون اگزافلاپس محاسباتی خیره کننده نیاز دارد. این تحقیق استراتژی‌های آموزشی توزیع شده کارآمد را برای استخراج این محاسبات از Frontier، اولین ابررایانه exascale جهان که به علم باز اختصاص داده شده است، بررسی می‌کند. ما تکنیک‌های آموزش موازی مدل و داده‌های مختلف، مانند موازی‌سازی تانسور، موازی‌سازی خطوط لوله، و موازی‌سازی داده‌های خرد شده را فعال و بررسی می‌کنیم تا آموزش یک مدل تریلیون پارامتری در Frontier را تسهیل کنیم. ما به طور تجربی این تکنیک‌ها و پارامترهای مرتبط با آن‌ها را ارزیابی می‌کنیم تا تأثیر آن‌ها بر ردپای حافظه، تأخیر ارتباط و کارایی محاسباتی GPU را تعیین کنیم. ما تعامل پیچیده بین این تکنیک ها را تجزیه و تحلیل می کنیم و راهبردی برای ترکیب آنها برای دستیابی به توان عملیاتی بالا از طریق تنظیم هایپرپارامتر پیدا می کنیم. ما استراتژی‌های کارآمدی را برای آموزش LLM‌های بزرگ با اندازه‌های مختلف از طریق تحلیل تجربی و تنظیم فراپارامتر شناسایی کرده‌ایم. برای پارامترهای 22 میلیارد، 175 میلیارد و 1 تریلیون، ما به توان پردازش گرافیکی دست یافتیم. 38.38%36.14%و 31.96%، به ترتیب. برای آموزش مدل پارامتر 175 میلیارد و مدل پارامتر 1 تریلیون به دست آوردیم 100% راندمان مقیاس پذیری ضعیف به ترتیب در پردازنده های گرافیکی 1024 و 3072 MI250X. ما همچنین به بازده پوسته پوسته شدن قوی دست یافتیم 89% و 87% برای این دو مدل.”

یافتن مقاله فنی اینجا منتشر شده در دسامبر 2023 (پیش چاپ).

داش، ساجل، آیزاک لینگااس، جونکی یین، شیائو وانگ، رومین اگله، گوئوجینگ کونگ، فییی وانگ و پراسانا بالاپراکاش. "بهینه سازی آموزش توزیع شده در مرز برای مدل های زبان بزرگ." پیش چاپ arXiv arXiv:2312.12705 (2023).

برای مطالعه بیشتر
هوش مصنوعی تا لبه مسابقه می دهد
با گسترش هوش مصنوعی به برنامه های جدید، استنتاج و برخی آموزش ها به دستگاه های کوچکتر منتقل می شوند.

تمبر زمان:

بیشتر از نیمه مهندسی