ИИ на грани больше не означает тупой ИИ

Исходный узел: 1579936

Одним из аспектов общепринятой мудрости в области ИИ было то, что все инновации начинаются с больших механизмов машинного обучения/обучения в облаке. Некоторые из этих инноваций могут в конечном итоге перейти в сокращенной/ограниченной форме на периферию. Отчасти это отражало новизну области. Возможно, это также отчасти отражало потребность в готовых универсальных решениях для виджетов IoT. Где дизайнеры хотели, чтобы их продукты были умными, но не были готовы стать экспертами по дизайну машинного обучения. Но теперь эти дизайнеры наверстывают упущенное. Они читают те же пресс-релизы и проводят исследования, что и все мы, как и их конкуренты. Они хотят воспользоваться теми же достижениями, придерживаясь при этом ограничений по мощности и стоимости.

ИИ на грани больше не означает тупой ИИ

Признание лица

Дифференциация ИИ на грани

Все дело в дифференциации в рамках приемлемого соотношения цена/мощность. Это трудно получить от готовых решений. В конце концов, конкуренты имеют доступ к одним и тем же решениям. Что вам действительно нужно, так это набор опций алгоритма, смоделированных в процессоре как выделенные ускорители, готовые к использованию, с возможностью наслоения на ваше собственное программное обеспечение. Вы можете подумать, что здесь мало что можно сделать, кроме некоторого администрирования и настройки. Времена изменились. Компания CEVA недавно представила свой встроенный процессор искусственного интеллекта NeuPro-M, который позволяет проводить оптимизацию с использованием некоторых из последних достижений машинного обучения в глубине разработки алгоритмов.

Итак, больше контроля над алгоритмом, но с какой целью? Вы хотите оптимизировать производительность на ватт, но стандартная метрика — TOPS/Вт — слишком грубая. Приложения для обработки изображений должны измеряться количеством кадров в секунду (fps) на ватт. Для приложений безопасности, автомобильной безопасности или предотвращения столкновений с дронами время распознавания на кадр гораздо важнее, чем необработанные операции в секунду. Таким образом, платформа, подобная NeuPro-M, которая может обеспечить до тысячи кадров/Вт, в принципе будет работать с реалистичной частотой кадров 30-60 кадров в секунду при очень низком энергопотреблении. Это настоящий шаг вперед по сравнению с традиционными предварительно упакованными решениями ИИ.

Это позволяет

Окончательные алгоритмы создаются путем набора функций, о которых вы читали, начиная с широкого спектра вариантов квантования. То же самое относится к разнообразию типов данных в активации и весах в диапазоне битовых размеров. Блок нейронного умножителя (NMU) оптимально поддерживает несколько вариантов разрядности для активации и веса, например 8×2 или 16×4, а также такие варианты, как 8×10.

Процессор поддерживает преобразование Винограда или эффективные свертки, обеспечивая двукратный прирост производительности и снижение энергопотребления с ограниченным снижением точности. Добавьте в модель механизм разреженности для ускорения до 2 раз в зависимости от количества нулевых значений (либо в данных, либо в весах). Здесь Neural Multiplier Unit также поддерживает ряд типов данных, фиксированных от 4×2 до 2×16 и с плавающей запятой (и Bfloat) от 16×16 до 16×32.

Логика потоковой передачи предоставляет опции для масштабирования с фиксированной точкой, активации и объединения. Векторный процессор позволяет добавлять в модель собственные слои. «Ну и что, все это поддерживают», — можете подумать вы, но посмотрите ниже на пропускную способность. Существует также набор функций искусственного интеллекта следующего поколения, включая преобразователи зрения, 3D-свертку, поддержку RNN и декомпозицию матриц.

Множество вариантов алгоритмов, поддерживаемых оптимизацией сети для вашего встроенного решения через структуру CDNN, чтобы в полной мере использовать возможности ваших алгоритмов машинного обучения. CDNN представляет собой комбинацию компилятора графа сетевого логического вывода и специального дополнительного инструмента PyTorch. Этот инструмент сокращает модель, дополнительно поддерживает сжатие модели посредством декомпозиции матрицы и добавляет повторное обучение с учетом квантования.

Оптимизация пропускной способности

В большинстве систем ИИ некоторые из этих функций могут выполняться в специализированных механизмах, требующих выгрузки данных и загрузки преобразования обратно после завершения. Это большая дополнительная задержка (и, возможно, компромиссы с питанием), полностью снижающая производительность вашей сильной модели. NeuPro-M устраняет эту проблему, подключая Найти эти ускорители напрямую в общий кэш L1. Поддержка гораздо более высокой пропускной способности, чем у обычных ускорителей.

Яркий пример: модуль векторной обработки, обычно используемый для определения пользовательских слоев, находится на том же уровне, что и другие ускорители. Ваши алгоритмы, реализованные в VPU, выигрывают от того же ускорения, что и остальная часть модели. Опять же, для ускорения пользовательских слоев не требуется разгрузка и перезагрузка. Кроме того, у вас может быть до 8 таких движков NPM (все ускорители плюс кеш NPM L1). NeuPro-M также предлагает значительный уровень программно-управляемой оптимизации пропускной способности между кэшем L2 и кэшем L1, оптимизируя обработку кадров и сводя к минимуму потребность в доступе к DDR.

Естественно, NeuPro-M также минимизирует трафик данных и весов. Для данных ускорители используют один и тот же кэш L1. Хост-процессор может обмениваться данными напрямую с NeuPro-M L2, что также снижает потребность в передаче данных DDR. NeuPro-M сжимает и распаковывает веса на кристалле при передаче в память DDR. То же самое можно сделать и с активациями.

Доказательство ускорения fps/W

CEVA провела стандартные тесты, используя комбинацию алгоритмов, смоделированных в ускорителях, от нативного через Winograd до Winograd+Sparsity и до Winograd+Sparsity+4×4. Оба эталонных теста показали повышение производительности до 3 раз, а мощность (fps/W) — примерно в 5 раз для ISP NN. Решение NeuPro-M обеспечивает меньшую площадь, 4-кратную производительность и 1/3 мощности по сравнению с их предыдущим поколением NeuPro-S.

Существует тенденция, которую я вижу в более общем плане, для достижения максимальной производительности путем объединения нескольких алгоритмов. Именно это CEVA сделала возможной с помощью этой платформы. Вы можете прочитать больше ВОТ.

Поделитесь этим постом через: Источник: https://semiwiki.com/artificial-intelligence/306655-ai-at-the-edge-no-longer-means-dumbed-down-ai/

Отметка времени:

Больше от Полувики