Интеграция CiM для ускорения вывода ML

Интеграция CiM для ускорения вывода ML

Исходный узел: 3064987

Технический документ под названием «WWW: Что, когда и где выполнять вычисления в памяти» был опубликован исследователями из Университета Пердью.

Абстрактные:

«Вычисления в памяти (CiM) стали привлекательным решением для снижения высоких затрат на перемещение данных в машинах фон Неймана. CiM может выполнять в памяти массово-параллельные операции общего матричного умножения (GEMM), которые являются доминирующими вычислениями в машинном обучении (ML). Однако повторное использование памяти для вычислений ставит ключевые вопросы: 1) Какой тип CiM использовать: учитывая множество аналоговых и цифровых CiM, необходимо определить их пригодность с точки зрения системы. 2) Когда использовать CiM: вывод ML включает рабочие нагрузки с различными требованиями к памяти и вычислениям, что затрудняет определение того, когда CiM более выгоден, чем стандартные вычислительные ядра. 3) Где интегрировать CiM: каждый уровень памяти имеет различную пропускную способность и емкость, что влияет на перемещение данных и преимущества локальности интеграции CiM.
В этой статье мы исследуем ответы на эти вопросы, касающиеся интеграции CiM для ускорения вывода ML. Мы используем Timeloop-Accelergy для ранней оценки прототипов CiM на системном уровне, включая как аналоговые, так и цифровые примитивы. Мы интегрируем CiM в различные уровни кэш-памяти в базовой архитектуре, подобной Nvidia A100, и адаптируем поток данных для различных рабочих нагрузок машинного обучения. Наши эксперименты показывают, что архитектуры CiM повышают энергоэффективность, обеспечивая до 0.12-кратного снижения энергопотребления по сравнению с установленным базовым уровнем с точностью INT-8 и до 4-кратного прироста производительности за счет весового чередования и дублирования. Предлагаемая работа дает представление о том, какой тип CiM использовать, а также когда и где оптимально интегрировать его в иерархию кэша для ускорения GEMM».

Найдите технический документ здесь. Опубликовано в декабре 2023 г. (препринт).

Шарма, Танви, Мустафа Али, Индранил Чакраборти и Кошик Рой. «WWW: что, когда и где выполнять вычисления в памяти». Препринт arXiv arXiv:2312.15896 (2023).

Связанные Чтение
Повышение энергоэффективности ИИ с помощью вычислений в памяти
Как обрабатывать рабочие нагрузки zettascale и оставаться в рамках фиксированного бюджета мощности.
Моделирование вычислений в памяти с биологической эффективностью
Генеративный искусственный интеллект заставляет производителей чипов более разумно использовать вычислительные ресурсы.
SRAM в искусственном интеллекте: будущее памяти
Почему SRAM рассматривается как важнейший элемент в новых и традиционных вычислительных архитектурах.

Отметка времени:

Больше от Полуинжиниринг