Вывод LLM на графических процессорах (Intel)

Переиздано Платоном

Читают: 0

Технический документ под названием «Эффективное решение для вывода LLM на графическом процессоре Intel» был опубликован исследователями корпорации Intel.

Абстрактные:

«Модели большого языка (LLM) на основе преобразователей широко используются во многих областях, и эффективность вывода LLM становится горячей темой в реальных приложениях. Однако LLM обычно имеют сложную структуру модели с большим количеством операций и выполняют вывод в авторегрессионном режиме, что делает разработку системы с высокой эффективностью сложной задачей.
В этой статье мы предлагаем эффективное решение LLM-вывода с низкой задержкой и высокой пропускной способностью. Во-первых, мы упрощаем уровень декодера LLM, объединяя перемещение данных и поэлементные операции, чтобы уменьшить частоту доступа к памяти и снизить задержку системы. Мы также предлагаем политику сегментного кэширования KV, позволяющую хранить ключ/значение токенов запроса и ответа в отдельной физической памяти для эффективного управления памятью устройства, помогая увеличить размер пакета времени выполнения и повысить пропускную способность системы. Настраиваемое ядро Scaled-Dot-Product-Attention разработано в соответствии с нашей политикой объединения на основе решения сегментного кэша KV. Мы реализуем наше решение для вывода LLM на графическом процессоре Intel и публикуем его публично. По сравнению со стандартной реализацией HuggingFace предлагаемое решение обеспечивает до 7 раз меньшую задержку токена и в 27 раз более высокую пропускную способность для некоторых популярных LLM на графическом процессоре Intel».

Найдите технический документ здесь. Опубликовано в декабре 2023 г. (препринт).

У, Хуэй, И Ган, Фэн Юань, Цзин Ма, Вэй Чжу, Ютао Сюй, Хун Чжу, Юхуа Чжу, Сяоли Лю и Цзинхуэй Гу. «Эффективное решение для вывода LLM на графическом процессоре Intel». Препринт arXiv arXiv:2401.05391 (2023 г.).

Связанные Чтение
Вывод LLM по процессорам (Intel)
Технический документ под названием «Эффективный вывод LLM о процессорах» был опубликован исследователями Intel.
Искусственный интеллект стремится к пределу
По мере распространения ИИ в новых приложениях обработка выводов и некоторое обучение переносится на устройства меньшего размера.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://semiengineering.com/llm-inference-on-gpus-intel/

Отметка времени: 2 февраля 2024

Отметка времени: Июль 5, 2023

LLM Inference по графическим процессорам (Intel)

Переиздано Платоном

Абстрактные:

Больше от Полуинжиниринг

От заведомо хорошей матрицы к заведомо хорошей системе с UCIe IP

Инструмент EDA для обнаружения уязвимостей SW-HW, обеспечивающий конфиденциальность данных в архитектуре RISC-V

3 ключевых достижения в области автомобильных технологий, на которые стоит обратить внимание

Многоуровневые ячейки FeFET для вычислений в памяти по 28-нм техпроцессу

Лазер III–V, выращенный на структурированной Si-фотонной платформе с вводом света в пассивные SiN-волноводы

Исследовательские биты: 24 января

Arm Total Compute: разработка для рабочих нагрузок завтрашнего дня

Многоядерный пакет BDD на основе индексов с динамическим управлением памятью и уменьшенной фрагментацией

Обзор методов проектирования безопасных мемристорных вычислительных систем

LPDDR4x DRAM с низкой плотностью — лучший выбор для периферийного ИИ

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись