استنتاج LLM در GPU (اینتل)

بازنشر افلاطون

دنبال: 0

یک مقاله فنی با عنوان "راه حل استنتاج کارآمد LLM در پردازنده گرافیکی اینتل" توسط محققان شرکت اینتل منتشر شد.

چکیده:

مدل‌های زبان بزرگ مبتنی بر ترانسفورماتور (LLM) به طور گسترده در بسیاری از زمینه‌ها مورد استفاده قرار گرفته‌اند و کارایی استنتاج LLM به موضوع داغ در کاربردهای واقعی تبدیل می‌شود. با این حال، LLM ها معمولاً به طور پیچیده در ساختار مدل با عملیات عظیم طراحی می شوند و استنتاج را در حالت رگرسیون خودکار انجام می دهند، که طراحی یک سیستم با کارایی بالا را به یک کار چالش برانگیز تبدیل می کند.
در این مقاله، ما یک راه‌حل استنتاج LLM کارآمد با تأخیر کم و توان عملیاتی بالا پیشنهاد می‌کنیم. در مرحله اول، ما لایه رمزگشای LLM را با ترکیب حرکت داده و عملیات عنصری برای کاهش فرکانس دسترسی به حافظه و کاهش تأخیر سیستم ساده می کنیم. ما همچنین یک خط‌مشی کش KV را پیشنهاد می‌کنیم تا کلید/مقدار توکن‌های درخواست و پاسخ را در حافظه فیزیکی جداگانه برای مدیریت موثر حافظه دستگاه نگه‌داری کنیم، که به بزرگ‌تر کردن اندازه دسته‌ای زمان اجرا و بهبود توان عملیاتی سیستم کمک می‌کند. یک هسته Scaled-Dot-Product-Attention سفارشی شده برای مطابقت با خط مشی ترکیبی ما بر اساس راه حل کش بخش KV طراحی شده است. ما راه حل استنتاج LLM خود را بر روی پردازنده گرافیکی اینتل پیاده سازی می کنیم و آن را به صورت عمومی منتشر می کنیم. در مقایسه با اجرای استاندارد HuggingFace، راه حل پیشنهادی تا 7 برابر تاخیر توکن کمتر و 27 برابر توان عملیاتی بیشتر برای برخی از LLM های محبوب در پردازنده گرافیکی اینتل به دست می آورد.

یافتن مقاله فنی اینجا منتشر شده در دسامبر 2023 (پیش چاپ).

وو، هوی، یی گان، فنگ یوان، جینگ ما، وی ژو، یوتائو ژو، هونگ ژو، یوهوا ژو، شیائولی لیو، و جینگ هوی گو. "راه حل کارآمد استنتاج LLM در پردازنده گرافیکی اینتل." پیش چاپ arXiv arXiv:2401.05391 (2023).

خواندن مرتبط
استنتاج LLM در CPU (اینتل)
یک مقاله فنی با عنوان "استنتاج کارآمد LLM در CPU" توسط محققان اینتل منتشر شد.
هوش مصنوعی تا لبه مسابقه می دهد
با گسترش هوش مصنوعی به برنامه های جدید، استنتاج و برخی آموزش ها به دستگاه های کوچکتر منتقل می شوند.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://semiengineering.com/llm-inference-on-gpus-intel/

تمبر زمان: فوریه 2، 2024

تمبر زمان: اکتبر 2، 2023

استنباط LLM در GPU (اینتل)

بازنشر افلاطون

چکیده:

بیشتر از نیمه مهندسی

مواد باند پلیمری حساس به نور منفی برای فعال کردن پیش پیوند دمای اتاق برای اتصال ترکیبی مس/پلیمر

اقدامات متقابل با کمک کامپایلر آگاه از امنیت برای کاهش حملات خطا در RISC-V

تولید میزهای آزمایش تأیید رسمی با کمک LLM: RTL تا SVA (Princeton)

نمایش یک دستگاه حافظه چند سطحی نوری هیبریدی 2D-0D که توسط پالس های لیزری کار می کند

استفاده از ML برای بهبود زمان‌بندی Fab

لیتوگرافی High-NA شروع به شکل گیری می کند

امنیت جان به مرگ

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب