Технический документ под названием «WWW: Что, когда и где выполнять вычисления в памяти» был опубликован исследователями из Университета Пердью.
Абстрактные:
«Вычисления в памяти (CiM) стали привлекательным решением для снижения высоких затрат на перемещение данных в машинах фон Неймана. CiM может выполнять в памяти массово-параллельные операции общего матричного умножения (GEMM), которые являются доминирующими вычислениями в машинном обучении (ML). Однако повторное использование памяти для вычислений ставит ключевые вопросы: 1) Какой тип CiM использовать: учитывая множество аналоговых и цифровых CiM, необходимо определить их пригодность с точки зрения системы. 2) Когда использовать CiM: вывод ML включает рабочие нагрузки с различными требованиями к памяти и вычислениям, что затрудняет определение того, когда CiM более выгоден, чем стандартные вычислительные ядра. 3) Где интегрировать CiM: каждый уровень памяти имеет различную пропускную способность и емкость, что влияет на перемещение данных и преимущества локальности интеграции CiM.
В этой статье мы исследуем ответы на эти вопросы, касающиеся интеграции CiM для ускорения вывода ML. Мы используем Timeloop-Accelergy для ранней оценки прототипов CiM на системном уровне, включая как аналоговые, так и цифровые примитивы. Мы интегрируем CiM в различные уровни кэш-памяти в базовой архитектуре, подобной Nvidia A100, и адаптируем поток данных для различных рабочих нагрузок машинного обучения. Наши эксперименты показывают, что архитектуры CiM повышают энергоэффективность, обеспечивая до 0.12-кратного снижения энергопотребления по сравнению с установленным базовым уровнем с точностью INT-8 и до 4-кратного прироста производительности за счет весового чередования и дублирования. Предлагаемая работа дает представление о том, какой тип CiM использовать, а также когда и где оптимально интегрировать его в иерархию кэша для ускорения GEMM».
Найдите технический документ здесь. Опубликовано в декабре 2023 г. (препринт).
Шарма, Танви, Мустафа Али, Индранил Чакраборти и Кошик Рой. «WWW: что, когда и где выполнять вычисления в памяти». Препринт arXiv arXiv:2312.15896 (2023).
Связанные Чтение
Повышение энергоэффективности ИИ с помощью вычислений в памяти
Как обрабатывать рабочие нагрузки zettascale и оставаться в рамках фиксированного бюджета мощности.
Моделирование вычислений в памяти с биологической эффективностью
Генеративный искусственный интеллект заставляет производителей чипов более разумно использовать вычислительные ресурсы.
SRAM в искусственном интеллекте: будущее памяти
Почему SRAM рассматривается как важнейший элемент в новых и традиционных вычислительных архитектурах.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/
- :имеет
- :является
- :куда
- $UP
- 1
- 2023
- a
- ускорение
- достижение
- AI
- облегчать
- an
- и
- ответы
- архитектура
- AS
- At
- Пропускная способность
- Базовая линия
- полезный
- Преимущества
- изоферменты печени
- бюджет
- by
- кэш
- CAN
- Пропускная способность
- неотразимый
- вычисление
- Вычисление
- Расходы
- критической
- данным
- Декабрь
- определения
- различный
- трудный
- Интернет
- доминирующий
- каждый
- Рано
- затрат
- элемент
- появившийся
- энергетика
- энергоэффективности
- установленный
- оценка
- Эксперименты
- Больше
- фиксированной
- Что касается
- Войска
- от
- будущее
- Доходы
- Общие
- данный
- здесь
- иерархия
- High
- Однако
- HTTPS
- определения
- улучшать
- in
- включает в себя
- В том числе
- размышления
- интегрировать
- интеграции.
- в
- IT
- JPG
- Основные
- изучение
- уровень
- уровни
- ниже
- машина
- обучение с помощью машины
- Продукция
- Создание
- массивно
- матрица
- Память
- ML
- БОЛЕЕ
- движение
- множество
- необходимый
- Новые
- Nvidia
- of
- on
- открытый
- Операционный отдел
- наши
- бумага & картон
- Параллельные
- выполнять
- производительность
- перспектива
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- представляет
- мощностью
- Точность
- процесс
- обработка
- предложило
- Прототипы
- приводит
- опубликованный
- Вопросы
- по
- Требования
- исследователи
- Полезные ресурсы
- Рой
- показывать
- Решение
- стандарт
- оставаться
- пригодность
- системы
- Технический
- чем
- который
- Ассоциация
- Будущее
- их
- Эти
- этой
- титулованный
- в
- традиционный
- напишите
- Университет
- использование
- разнообразие
- различный
- просматриваемые
- из
- законопроект
- we
- вес
- Что
- когда
- в
- Работа
- зефирнет