LLM Inference на GPU (Intel)

Перевидано Платоном

читають: 0

Дослідники корпорації Intel опублікували технічну статтю під назвою «Ефективне рішення LLM для висновків на GPU Intel».

Анотація:

«Великі мовні моделі (LLM) на основі трансформаторів широко використовуються в багатьох галузях, і ефективність висновків LLM стає гарячою темою в реальних програмах. Однак LLM зазвичай складно розроблені в модельній структурі з масивними операціями та виконують висновок у авторегресивному режимі, що робить складним завданням розробити систему з високою ефективністю.
У цій статті ми пропонуємо ефективне рішення LLM для логічного висновку з низькою затримкою та високою пропускною здатністю. По-перше, ми спрощуємо рівень декодера LLM, поєднуючи переміщення даних і поелементні операції, щоб зменшити частоту доступу до пам’яті та затримку системи. Ми також пропонуємо сегментну політику кешу KV, щоб зберігати ключ/значення маркерів запиту та відповіді в окремій фізичній пам’яті для ефективного керування пам’яттю пристрою, допомагаючи збільшити розмір пакета під час виконання та покращити пропускну здатність системи. Спеціалізоване ядро Scaled-Dot-Product-Attention розроблено, щоб відповідати нашій політиці злиття на основі рішення сегментного кешу KV. Ми впроваджуємо наше рішення LLM Inference на графічному процесорі Intel і публікуємо його. У порівнянні зі стандартною реалізацією HuggingFace запропоноване рішення забезпечує до 7 разів нижчу затримку маркерів і 27 разів вищу пропускну здатність для деяких популярних LLM на графічному процесорі Intel».

Знайти технічний документ тут. Опубліковано грудень 2023 р. (препринт).

Ву, Хуей, І Ган, Фен Юань, Цзін Ма, Вей Чжу, Ютао Сюй, Хун Чжу, Юхуа Чжу, Сяолі Лю та Цзінхуей Гу. «Ефективне рішення LLM для висновків на GPU Intel». Препринт arXiv arXiv:2401.05391 (2023).

Пов'язане читання
LLM Inference на ЦП (Intel)
Дослідники Intel опублікували технічну статтю під назвою «Ефективне висновок LLM щодо процесорів».
AI мчить до краю
Висновок і деяке навчання переносяться на менші пристрої, оскільки ШІ поширюється на нові програми.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://semiengineering.com/llm-inference-on-gpus-intel/

Часова мітка: 2 Лютого, 2024

Часова мітка: Липень 5, 2023

Перевидано Платоном

Анотація:

Більше від Напівтехніка

Від завідомо хорошої системи до завідомо доброї системи з UCIe IP

Інструмент EDA для виявлення вразливостей програмного і апаратного забезпечення, що забезпечує конфіденційність даних в архітектурі RISC-V

3 ключові досягнення автомобільних технологій, на які варто звернути увагу

Багаторівневі комірки FeFET для обчислень у пам’яті на 28 нм

Лазер III–V, вирощений на візерунковій платформі Si Photonics зі зв’язком світла з пасивними хвилеводами SiN

Дослідження: 24 січ

Arm Total Compute: розробка для робочих навантажень завтрашнього дня

Багатоядерний пакет BDD на основі індексу з динамічним керуванням пам’яттю та зменшенням фрагментації

Огляд методів проектування захищених обчислювальних систем з мемристорами

Низька щільність LPDDR4x DRAM — найкращий вибір для Edge AI

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки