AI på kanten betyder ikke længere nedtonet AI

Kildeknude: 1579936

Et aspekt af modtaget visdom om AI har været, at al innovation starter i de store maskinlærings-/træningsmotorer i skyen. Noget af denne innovation kan i sidste ende migrere i en reduceret/begrænset form til kanten. Dette afspejlede til dels feltets nyhed. Måske også til dels afspejlede det behovet for færdigpakkede one-size-passer-mange løsninger til IoT-widgets. Hvor designere ville have det smarte i deres produkter, men ikke var helt klar til at blive ML-designeksperter. Men nu er de designere ved at indhente det. De læser de samme pressemeddelelser og research, som vi alle laver, ligesom deres konkurrenter. De ønsker at drage fordel af de samme fremskridt, mens de holder sig til magt- og omkostningsbegrænsninger.

AI på kanten betyder ikke længere nedtonet AI

ansigtsgenkendelse

AI-differentiering på kanten

Det handler om differentiering inden for en acceptabel pris-/effektramme. Det er svært at få fra færdigpakkede løsninger. Konkurrenter har trods alt adgang til de samme løsninger. Det, du virkelig ønsker, er et sæt algoritmemuligheder, der er modelleret i processoren som dedikerede acceleratorer, der er klar til at blive brugt, med mulighed for at lave lag på din egen softwarebaserede værditilvækst. Du tror måske, at der ikke kan være meget, du kan gøre her, ud over noget admin og tuning. Tiderne har ændret sig. CEVA introducerede for nylig deres NeuPro-M indlejrede AI-processor, som tillader optimering ved hjælp af nogle af de nyeste ML-fremskridt, dybt ind i algoritmedesign.

OK, så mere kontrol over algoritmen, men til hvilket formål? Du vil optimere ydeevnen pr. watt, men standardmetrikken – TOPS/W – er for grov. Billedbehandlingsapplikationer skal måles i forhold til billeder pr. sekund (fps) pr. watt. Til sikkerhedsapplikationer, for bilsikkerhed eller undgåelse af dronekollisioner er genkendelsestider pr. frame meget mere relevante end rå operationer pr. sekund. Så en platform som NeuPro-M, der i princippet kan levere op til tusindvis af fps/W, vil klare realistiske fps-hastigheder på 30-60 billeder i sekundet ved meget lav effekt. Det er et reelt fremskridt i forhold til traditionelle færdigpakkede AI-løsninger.

Gør det muligt

Ultimative algoritmer er bygget ved at indtaste de funktioner, du har læst om, startende med en lang række kvantiseringsmuligheder. Det samme gælder for datatypediversitet i aktivering og vægte på tværs af en række bitstørrelser. Den neurale multiplikatorenhed (NMU) understøtter optimalt flere bitbreddemuligheder for aktivering og vægte såsom 8×2 eller 16×4 og vil også understøtte varianter som 8×10.

Processoren understøtter Winograd Transforms eller effektive foldninger, hvilket giver op til 2X ydeevneforstærkning og reduceret effekt med begrænset præcisionsforringelse. Tilføj sparsity-motoren til modellen for op til 4X acceleration afhængigt af mængden af ​​nul-værdier (i enten data eller vægte). Her understøtter Neural Multiplier Unit også en række datatyper, fast fra 2×2 til 16×16, og flydende komma (og Bfloat) fra 16×16 til 32×32.

Streaminglogik giver muligheder for fast punktskalering, aktivering og pooling. Vektorprocessoren giver dig mulighed for at tilføje dine egne brugerdefinerede lag til modellen. "Så hvad, det støtter alle", tænker du måske, men se nedenfor om gennemstrømning. Der er også et sæt af næste generations AI-funktioner, herunder vision-transformere, 3D-foldning, RNN-understøttelse og matrixnedbrydning.

Masser af algoritmemuligheder, alle understøttet af en netværksoptimering til din indlejrede løsning gennem CDNN-rammerne for fuldt ud at udnytte styrken i dine ML-algoritmer. CDNN er en kombination af en netværks-inferencing-grafkompiler og et dedikeret PyTorch-tilføjelsesværktøj. Dette værktøj vil beskære modellen, understøtter valgfrit modelkomprimering gennem matrixnedbrydning og tilføjer kvantiseringsbevidst genoptræning.

Gennemløbsoptimering

I de fleste AI-systemer kan nogle af disse funktioner håndteres i specialiserede motorer, hvilket kræver, at data aflæses, og transformationen skal indlæses tilbage, når den er fuldført. Det er en masse ekstra latency (og måske kompromitterer magten), hvilket fuldstændig underminerer ydeevnen i din ellers stærke model. NeuPro-M eliminerer dette problem ved at oprette forbindelse alle disse acceleratorer direkte til en delt L1-cache. Opretholder meget højere båndbredde end du finder i konventionelle acceleratorer.

Som et slående eksempel er vektorbehandlingsenheden, der typisk bruges til at definere brugerdefinerede lag, på samme niveau som de andre acceleratorer. Dine algoritmer implementeret i VPU'en nyder godt af den samme acceleration som resten af ​​modellen. Igen, ingen aflastning og genindlæsning er nødvendig for at accelerere tilpassede lag. Derudover kan du have op til 8 af disse NPM-motorer (alle acceleratorerne plus NPM L1-cachen). NeuPro-M tilbyder også et betydeligt niveau af softwarestyret båndbreddeoptimering mellem L2-cachen og L1-cachen, hvilket optimerer rammehåndtering og minimerer behovet for DDR-adgang.

Naturligvis vil NeuPro-M også minimere data- og vægttrafik. For data deler acceleratorer den samme L1-cache. En værtsprocessor kan kommunikere data direkte med NeuPro-M L2, hvilket igen reducerer behovet for DDR-overførsler. NeuPro-M komprimerer og dekomprimerer vægte på chip ved overførsel med DDR-hukommelse. Det kan det samme med aktiveringer.

Beviset i fps/W acceleration

CEVA kørte standard benchmarks ved hjælp af en kombination af algoritmer modelleret i acceleratorerne, fra native gennem Winograd, til Winograd+Sparsity, til Winograd+Sparsity+4×4. Begge benchmarks viste ydeevneforbedringer op til 3X, med effekt (fps/W) med omkring 5X for en ISP NN. NeuPro-M-løsningen leverede mindre areal, en 4X ydeevne, 1/3 af kraften, sammenlignet med deres tidligere generation NeuPro-S.

Der er en tendens, jeg ser mere generelt, at få den ultimative ydeevne ved at kombinere flere algoritmer. Hvilket er, hvad CEVA nu har gjort muligt med denne platform. Du kan læse mere HER.

Del dette opslag via: Kilde: https://semiwiki.com/artificial-intelligence/306655-ai-at-the-edge-no-longer-means-dumbed-down-ai/

Tidsstempel:

Mere fra Semiwiki