LLM Inference на GPU (Intel)

LLM Inference на GPU (Intel)

Вихідний вузол: 3095494

Дослідники корпорації Intel опублікували технічну статтю під назвою «Ефективне рішення LLM для висновків на GPU Intel».

Анотація:

«Великі мовні моделі (LLM) на основі трансформаторів широко використовуються в багатьох галузях, і ефективність висновків LLM стає гарячою темою в реальних програмах. Однак LLM зазвичай складно розроблені в модельній структурі з масивними операціями та виконують висновок у авторегресивному режимі, що робить складним завданням розробити систему з високою ефективністю.
У цій статті ми пропонуємо ефективне рішення LLM для логічного висновку з низькою затримкою та високою пропускною здатністю. По-перше, ми спрощуємо рівень декодера LLM, поєднуючи переміщення даних і поелементні операції, щоб зменшити частоту доступу до пам’яті та затримку системи. Ми також пропонуємо сегментну політику кешу KV, щоб зберігати ключ/значення маркерів запиту та відповіді в окремій фізичній пам’яті для ефективного керування пам’яттю пристрою, допомагаючи збільшити розмір пакета під час виконання та покращити пропускну здатність системи. Спеціалізоване ядро ​​Scaled-Dot-Product-Attention розроблено, щоб відповідати нашій політиці злиття на основі рішення сегментного кешу KV. Ми впроваджуємо наше рішення LLM Inference на графічному процесорі Intel і публікуємо його. У порівнянні зі стандартною реалізацією HuggingFace запропоноване рішення забезпечує до 7 разів нижчу затримку маркерів і 27 разів вищу пропускну здатність для деяких популярних LLM на графічному процесорі Intel».

Знайти технічний документ тут. Опубліковано грудень 2023 р. (препринт).

Ву, Хуей, І Ган, Фен Юань, Цзін Ма, Вей Чжу, Ютао Сюй, Хун Чжу, Юхуа Чжу, Сяолі Лю та Цзінхуей Гу. «Ефективне рішення LLM для висновків на GPU Intel». Препринт arXiv arXiv:2401.05391 (2023).

Пов'язане читання
LLM Inference на ЦП (Intel)
Дослідники Intel опублікували технічну статтю під назвою «Ефективне висновок LLM щодо процесорів».
AI мчить до краю
Висновок і деяке навчання переносяться на менші пристрої, оскільки ШІ поширюється на нові програми.

Часова мітка:

Більше від Напівтехніка