KI am Rande bedeutet nicht länger heruntergekommene KI

Quellknoten: 1579936

Ein Aspekt der weit verbreiteten Meinung zu KI ist, dass alle Innovationen in den großen Maschinen für maschinelles Lernen/Training in der Cloud beginnen. Einige dieser Innovationen könnten irgendwann in reduzierter/begrenzter Form an den Rand migrieren. Dies spiegelte zum Teil die Neuheit des Fachgebiets wider. Vielleicht spiegelte es auch teilweise den Bedarf an vorgefertigten, einheitlichen Lösungen für IoT-Widgets wider. Wo Designer die Intelligenz ihrer Produkte wollten, aber noch nicht ganz bereit waren, ML-Designexperten zu werden. Aber jetzt holen diese Designer auf. Sie lesen die gleichen Pressemitteilungen und recherchieren wie wir alle, ebenso wie ihre Konkurrenten. Sie möchten von den gleichen Fortschritten profitieren und gleichzeitig Leistungs- und Kostenbeschränkungen einhalten.

KI am Rande bedeutet nicht länger heruntergekommene KI

Gesichtserkennung

KI-Differenzierung am Rande

Es geht um Differenzierung innerhalb eines akzeptablen Kosten-Leistungs-Verhältnisses. Das ist mit vorgefertigten Lösungen schwer zu erreichen. Wettbewerber haben schließlich Zugriff auf die gleichen Lösungen. Was Sie wirklich wollen, ist eine Reihe von Algorithmusoptionen, die im Prozessor als dedizierte, einsatzbereite Beschleuniger modelliert werden und die Möglichkeit bieten, Ihren eigenen softwarebasierten Mehrwert zu ergänzen. Sie denken vielleicht, dass Sie hier nicht viel tun können, abgesehen von einigen Verwaltungs- und Optimierungsarbeiten. Die Zeiten haben sich geändert. CEVA hat kürzlich seinen eingebetteten KI-Prozessor NeuPro-M vorgestellt, der eine Optimierung mithilfe einiger der neuesten ML-Fortschritte bis tief in das Algorithmusdesign ermöglicht.

OK, also mehr Kontrolle über den Algorithmus, aber zu welchem ​​Zweck? Sie möchten die Leistung pro Watt optimieren, aber die Standardmetrik – TOPS/W – ist zu grob. Bildverarbeitungsanwendungen sollten anhand von Bildern pro Sekunde (fps) pro Watt gemessen werden. Für Sicherheitsanwendungen, die Automobilsicherheit oder die Vermeidung von Drohnenkollisionen sind Erkennungszeiten pro Frame viel relevanter als reine Operationen pro Sekunde. Eine Plattform wie NeuPro-M, die im Prinzip bis zu Tausende von fps/W liefern kann, wird also realistische fps-Raten von 30–60 Bildern pro Sekunde bei sehr geringem Stromverbrauch bewältigen. Das ist ein echter Fortschritt gegenüber herkömmlichen vorgefertigten KI-Lösungen.

Wir machen es Ihnen möglich

Ultimative Algorithmen werden durch die Auswahl der Funktionen erstellt, über die Sie gelesen haben, beginnend mit einer breiten Palette an Quantisierungsoptionen. Das Gleiche gilt für die Datentypvielfalt bei Aktivierung und Gewichtungen über einen Bereich von Bitgrößen hinweg. Die neuronale Multiplikatoreinheit (NMU) unterstützt optimal mehrere Bitbreitenoptionen für die Aktivierung und Gewichte wie 8×2 oder 16×4 und unterstützt auch Varianten wie 8×10.

Der Prozessor unterstützt Winograd-Transformationen oder effiziente Faltungen und bietet so eine bis zu zweifache Leistungssteigerung und reduzierten Stromverbrauch bei begrenzter Präzisionseinbuße. Fügen Sie dem Modell die Sparsity-Engine hinzu, um je nach Anzahl der Nullwerte (entweder in Daten oder Gewichtungen) eine bis zu vierfache Beschleunigung zu erzielen. Hier unterstützt die Neural Multiplier Unit auch eine Reihe von Datentypen, fest von 2×4 bis 2×2 und Gleitkomma (und Bfloat) von 16×16 bis 16×16.

Die Streaming-Logik bietet Optionen für Festkomma-Skalierung, Aktivierung und Pooling. Mit dem Vektorprozessor können Sie dem Modell Ihre eigenen benutzerdefinierten Ebenen hinzufügen. „Na und, jeder unterstützt das“, denken Sie vielleicht, aber siehe unten zum Durchsatz. Es gibt auch eine Reihe von KI-Funktionen der nächsten Generation, darunter Vision Transformer, 3D-Faltung, RNN-Unterstützung und Matrixzerlegung.

Viele Algorithmusoptionen, alle unterstützt durch eine Netzwerkoptimierung Ihrer eingebetteten Lösung über das CDNN-Framework, um die Leistungsfähigkeit Ihrer ML-Algorithmen voll auszuschöpfen. CDNN ist eine Kombination aus einem Netzwerk-Inferenz-Graph-Compiler und einem speziellen PyTorch-Zusatztool. Dieses Tool bereinigt das Modell, unterstützt optional die Modellkomprimierung durch Matrixzerlegung und fügt ein quantisierungsbewusstes Neutraining hinzu.

Durchsatzoptimierung

In den meisten KI-Systemen werden einige dieser Funktionen möglicherweise in speziellen Engines verarbeitet, was das Auslagern von Daten und das erneute Laden der Transformation nach Abschluss erfordert. Das bedeutet eine Menge zusätzlicher Latenz (und möglicherweise Leistungseinbußen), die die Leistung Ihres ansonsten starken Modells völlig untergraben. NeuPro-M beseitigt dieses Problem durch die Verbindung alle diese Beschleuniger direkt in einen gemeinsam genutzten L1-Cache. Aufrechterhaltung einer viel höheren Bandbreite als bei herkömmlichen Beschleunigern.

Ein markantes Beispiel: Die Vektorverarbeitungseinheit, die normalerweise zum Definieren benutzerdefinierter Ebenen verwendet wird, befindet sich auf derselben Ebene wie die anderen Beschleuniger. Ihre in der VPU implementierten Algorithmen profitieren von der gleichen Beschleunigung wie der Rest des Modells. Auch hier ist kein Auslagern und Neuladen erforderlich, um benutzerdefinierte Ebenen zu beschleunigen. Darüber hinaus können Sie bis zu 8 dieser NPM-Engines haben (alle Beschleuniger plus den NPM-L1-Cache). NeuPro-M bietet außerdem ein erhebliches Maß an softwaregesteuerter Bandbreitenoptimierung zwischen dem L2-Cache und den L1-Caches, wodurch die Frame-Verarbeitung optimiert und der Bedarf an DDR-Zugriffen minimiert wird.

Natürlich minimiert NeuPro-M auch den Daten- und Gewichtsverkehr. Für Daten nutzen Beschleuniger denselben L1-Cache. Ein Host-Prozessor kann Daten direkt mit dem NeuPro-M L2 kommunizieren, was wiederum den Bedarf an DDR-Übertragungen reduziert. NeuPro-M komprimiert und dekomprimiert Gewichte auf dem Chip bei der Übertragung mit DDR-Speicher. Dasselbe kann mit Aktivierungen geschehen.

Der Beweis in fps/W-Beschleunigung

CEVA führte Standard-Benchmarks mit einer Kombination von in den Beschleunigern modellierten Algorithmen durch, von nativ über Winograd über Winograd+Sparsity bis hin zu Winograd+Sparsity+4×4. Beide Benchmarks zeigten Leistungsverbesserungen bis zum Dreifachen, mit einer Leistung (fps/W) um etwa das Fünffache für einen ISP NN. Die NeuPro-M-Lösung lieferte im Vergleich zu NeuPro-S der früheren Generation eine kleinere Fläche, eine vierfache Leistung und ein Drittel der Leistung.

Ich sehe einen allgemeineren Trend, die ultimative Leistung durch die Kombination mehrerer Algorithmen zu erzielen. Genau das hat CEVA nun mit dieser Plattform ermöglicht. Sie können mehr lesen KLICKEN SIE HIER.

Teile diesen Beitrag über: Quelle: https://semiwiki.com/artificial-intelligence/306655-ai-at-the-edge-no-longer-means-dumbed-down-ai/

Zeitstempel:

Mehr von Semiwiki