Интеграция CiM для ускорения вывода ML

Переиздано Платоном

Читают: 0

Технический документ под названием «WWW: Что, когда и где выполнять вычисления в памяти» был опубликован исследователями из Университета Пердью.

Абстрактные:

«Вычисления в памяти (CiM) стали привлекательным решением для снижения высоких затрат на перемещение данных в машинах фон Неймана. CiM может выполнять в памяти массово-параллельные операции общего матричного умножения (GEMM), которые являются доминирующими вычислениями в машинном обучении (ML). Однако повторное использование памяти для вычислений ставит ключевые вопросы: 1) Какой тип CiM использовать: учитывая множество аналоговых и цифровых CiM, необходимо определить их пригодность с точки зрения системы. 2) Когда использовать CiM: вывод ML включает рабочие нагрузки с различными требованиями к памяти и вычислениям, что затрудняет определение того, когда CiM более выгоден, чем стандартные вычислительные ядра. 3) Где интегрировать CiM: каждый уровень памяти имеет различную пропускную способность и емкость, что влияет на перемещение данных и преимущества локальности интеграции CiM.
В этой статье мы исследуем ответы на эти вопросы, касающиеся интеграции CiM для ускорения вывода ML. Мы используем Timeloop-Accelergy для ранней оценки прототипов CiM на системном уровне, включая как аналоговые, так и цифровые примитивы. Мы интегрируем CiM в различные уровни кэш-памяти в базовой архитектуре, подобной Nvidia A100, и адаптируем поток данных для различных рабочих нагрузок машинного обучения. Наши эксперименты показывают, что архитектуры CiM повышают энергоэффективность, обеспечивая до 0.12-кратного снижения энергопотребления по сравнению с установленным базовым уровнем с точностью INT-8 и до 4-кратного прироста производительности за счет весового чередования и дублирования. Предлагаемая работа дает представление о том, какой тип CiM использовать, а также когда и где оптимально интегрировать его в иерархию кэша для ускорения GEMM».

Найдите технический документ здесь. Опубликовано в декабре 2023 г. (препринт).

Шарма, Танви, Мустафа Али, Индранил Чакраборти и Кошик Рой. «WWW: что, когда и где выполнять вычисления в памяти». Препринт arXiv arXiv:2312.15896 (2023).

Связанные Чтение
Повышение энергоэффективности ИИ с помощью вычислений в памяти
Как обрабатывать рабочие нагрузки zettascale и оставаться в рамках фиксированного бюджета мощности.
Моделирование вычислений в памяти с биологической эффективностью
Генеративный искусственный интеллект заставляет производителей чипов более разумно использовать вычислительные ресурсы.
SRAM в искусственном интеллекте: будущее памяти
Почему SRAM рассматривается как важнейший элемент в новых и традиционных вычислительных архитектурах.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

Отметка времени: 16 января 2024

Отметка времени: Июль 6, 2023

Интеграция CiM для ускорения вывода ML

Переиздано Платоном

Абстрактные:

Больше от Полуинжиниринг

Разрушение методологий проектирования и проверки

Дизайн ИС

Проблемы реструктуризации RTL

Многоуровневая сегнетоэлектрическая матрица памяти, состоящая из сегнетоэлектрических полевых транзисторов с боковым затвором

Обучение больших моделей LLM с миллиардами и триллионами параметров на передовом суперкомпьютере ORNL

Fabs начинают наращивать машинное обучение

Исследовательские биты: 3 января

Платформа совместного проектирования Edge HW-SW, объединяющая ускорители RISC-V и HW

Слой трансляции DRAM, механизм гибкого отображения адресов и переноса данных в устройствах памяти на основе CXL

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись