ШІ на межі більше не означає заглушений ШІ

Вихідний вузол: 1579936

Одним із аспектів отриманої мудрості щодо штучного інтелекту є те, що всі інновації починаються з великих механізмів машинного навчання/навчання в хмарі. Деякі з цих інновацій можуть зрештою переміститися у скороченій/обмеженій формі на край. Частково це відображало новизну галузі. Можливо, це також частково відображало потребу в готових універсальних рішеннях для віджетів IoT. Де дизайнери бажали розуму у своїх продуктах, але не були зовсім готові стати експертами з дизайну машинного навчання. Але тепер ці дизайнери наздоганяють. Вони читають ті самі прес-релізи та дослідження, які ми всі робимо, як і їхні конкуренти. Вони хочуть скористатися тими ж досягненнями, дотримуючись при цьому обмежень щодо потужності та вартості.

ШІ на межі більше не означає заглушений ШІ

Розпізнавання обличчя

Диференціація ШІ на краю

Вся справа в диференціації в рамках прийнятного співвідношення ціни та потужності. Це важко отримати від готових рішень. Зрештою, конкуренти мають доступ до тих самих рішень. Що вам дійсно потрібно, так це набір опцій алгоритму, змодельованих у процесорі як виділені прискорювачі, готові до використання, з можливістю накладати на ваше власне програмне забезпечення. Ви можете подумати, що ви не можете багато чого зробити, крім адміністратора та налаштування. Часи змінилися. CEVA нещодавно представила свій вбудований процесор штучного інтелекту NeuPro-M, який дозволяє оптимізувати за допомогою деяких останніх досягнень машинного навчання, глибоко в дизайні алгоритмів.

Добре, більше контролю над алгоритмом, але з якою метою? Ви хочете оптимізувати продуктивність на ват, але стандартний показник – TOPS/W – є занадто грубим. Програми обробки зображень слід вимірювати за кадрами в секунду (fps) на ват. Для додатків безпеки, автомобільної безпеки чи запобігання зіткненням безпілотників час розпізнавання кадру є набагато важливішим, ніж необроблені операції за секунду. Таким чином, така платформа, як NeuPro-M, яка в принципі може забезпечувати до тисячі кадрів в секунду/Вт, працюватиме з реалістичною швидкістю кадрів в секунду 30-60 кадрів в секунду при дуже низькій потужності. Це справжній прогрес у порівнянні з традиційними готовими рішеннями ШІ.

Роблячи це можливим

Найновіші алгоритми створюються шляхом набору функцій, про які ви читали, починаючи з широкого діапазону параметрів квантування. Те саме стосується різноманіття типів даних в активації та ваги в діапазоні бітових розмірів. Модуль нейронного множника (NMU) оптимально підтримує кілька параметрів бітової ширини для активації та ваг, таких як 8×2 або 16×4, а також підтримує такі варіанти, як 8×10.

Процесор підтримує Winograd Transforms або ефективні згортки, забезпечуючи до 2-кратного приросту продуктивності та зниження потужності з обмеженим зниженням точності. Додайте механізм розрідженості до моделі для прискорення до 4 разів залежно від кількості нульових значень (у даних або вагових коефіцієнтах). Тут модуль нейронного множника також підтримує діапазон типів даних, фіксованих від 2 × 2 до 16 × 16, і з плаваючою комою (і Bfloat) від 16 × 16 до 32 × 32.

Потокова логіка надає параметри для масштабування з фіксованою точкою, активації та об’єднання. Векторний процесор дозволяє додавати власні шари до моделі. «Ну й що, усі це підтримують», — можете подумати ви, але дивіться нижче про пропускну здатність. Також є набір функцій штучного інтелекту наступного покоління, включаючи трансформатори зору, 3D-згортку, підтримку RNN і декомпозицію матриці.

Безліч варіантів алгоритмів, усі вони підтримуються мережевою оптимізацією вашого вбудованого рішення через інфраструктуру CDNN, щоб повністю використовувати потужність ваших алгоритмів ML. CDNN — це комбінація компілятора мережевих графів і спеціального додаткового інструменту PyTorch. Цей інструмент обрізає модель, додатково підтримує стиснення моделі через розкладання матриці та додає повторне навчання з урахуванням квантування.

Оптимізація пропускної здатності

У більшості систем штучного інтелекту деякі з цих функцій можуть оброблятися спеціальними механізмами, вимагаючи вивантаження даних і завантаження трансформації після завершення. Це велика додаткова затримка (і, можливо, компроміси з потужністю), що повністю підриває продуктивність вашої інакше сильної моделі. NeuPro-M усуває цю проблему шляхом підключення всі ці прискорювачі безпосередньо в спільний кеш L1. Підтримка набагато вищої пропускної здатності, ніж у звичайних прискорювачах.

Як яскравий приклад, блок векторної обробки, який зазвичай використовується для визначення нестандартних шарів, розташований на тому ж рівні, що й інші прискорювачі. Ваші алгоритми, реалізовані у VPU, виграють від того ж прискорення, що й решта моделі. Знову ж таки, для прискорення користувацьких шарів не потрібно розвантажувати та перезавантажувати. Крім того, ви можете мати до 8 цих двигунів NPM (усі прискорювачі, плюс кеш NPM L1). NeuPro-M також пропонує значний рівень програмно-контрольованої оптимізації смуги пропускання між кеш-пам'яттю L2 і L1, оптимізуючи обробку кадрів і мінімізуючи потребу в доступі DDR.

Звичайно, NeuPro-M також мінімізує трафік даних і ваги. Для даних прискорювачі використовують один і той самий кеш L1. Хост-процесор може передавати дані безпосередньо з NeuPro-M L2, знову ж таки зменшуючи потребу в передачі DDR. NeuPro-M стискає та розпаковує ваги на чіпі під час передачі з пам’яттю DDR. Він може зробити те саме з активаціями.

Доказ у прискоренні fps/W

CEVA провела стандартні тести, використовуючи комбінацію алгоритмів, змодельованих у прискорювачах, від нативного через Winograd до Winograd+Sparsity і до Winograd+Sparsity+4×4. Обидва тести продемонстрували підвищення продуктивності до 3 разів, а потужність (кад/с/Вт) приблизно в 5 разів для Інтернет-провайдера NN. Рішення NeuPro-M забезпечило меншу площу, продуктивність у 4 рази та 1/3 потужності порівняно з попереднім поколінням NeuPro-S.

Існує тенденція, яку я бачу в більш загальному плані, щоб досягти максимальної продуктивності шляхом поєднання кількох алгоритмів. Саме це стало можливим завдяки цій платформі CEVA. Ви можете прочитати більше ТУТ.

Поділитися цим дописом через: Джерело: https://semiwiki.com/artificial-intelligence/306655-ai-at-the-edge-no-longer-means-dumbed-down-ai/

Часова мітка:

Більше від Semiwiki