Långvarig vägspärr för livskraftig L4/L5 autonom körning och generativ AI-inferens på kanten - Semiwiki

Återutgiven av Platon

anhängare: 0

Två nyare mjukvarubaserade algoritmiska teknologier – autonom körning (ADAS/AD) och generativ AI (GenAI) – håller halvledartekniker uppe på natten.

Medan ADAS på nivå 2 och nivå 3 är på rätt spår, är AD på nivå 4 och 5 långt ifrån verkligheten, vilket orsakar en minskning av riskkapitalentusiasm och pengar. Idag får GenAI uppmärksamheten och VC:er investerar ivrigt miljarder dollar.

Båda teknologierna är baserade på moderna, komplexa algoritmer. Bearbetningen av deras träning och slutsatser delar några attribut, några kritiska, andra viktiga men inte väsentliga: Se tabell I.

Generativ AI-inferens vid kanten — Tabell I bildtext: Algoritmträning och slutledning delar vissa men inte alla kritiska attribut. Källa: VSORA

De anmärkningsvärda mjukvaruframstegen inom dessa teknologier har hittills inte replikerats av framsteg inom algoritmisk hårdvara för att påskynda deras exekvering. Till exempel har toppmoderna algoritmiska processorer inte prestanda att svara på ChatGPT-4-förfrågningar på en eller två sekunder till en kostnad av ¢2 per fråga, det riktmärke som fastställts av Google-sökning, eller att bearbeta den massiva data samlas in av AD-sensorerna på mindre än 20 millisekunder.

Det är tills franska startupen VSORA investerade hjärnkraft för att ta itu med minnesflaskhalsen som kallas minnesväggen.

Minnesväggen

CPU:ns minnesvägg beskrevs först av Wulf och McKee 1994. Ända sedan dess har minnesåtkomst blivit flaskhalsen för datorprestanda. Framsteg i processorprestanda har inte speglats i minnesåtkomstförloppet, vilket får processorer att vänta längre på data som levereras av minnen. I slutet sjunker processoreffektiviteten långt under 100 % utnyttjande.

För att lösa problemet skapade halvledarindustrin en hierarkisk minnesstruktur på flera nivåer med flera nivåer av cache närmare processorn som minskar mängden trafik med de långsammare huvud- och externa minnena.

Prestanda hos AD- och GenAI-processorer beror mer än andra typer av datorenheter på bred minnesbandbredd.

VSORA, som grundades 2015 för att rikta in sig på 5G-applikationer, uppfann en patenterad arkitektur som kollapsar den hierarkiska minnesstrukturen till ett tätt kopplat minne med stor bandbredd (TCM) som nås i en klockcykel.

Ur processorkärnornas perspektiv ser och fungerar TCM som ett hav av register i mängden MByte kontra kByte av faktiska fysiska register. Möjligheten att komma åt valfri minnescell i TMC i en cykel ger hög exekveringshastighet, låg latens och låg strömförbrukning. Det kräver också mindre kiselyta. Att ladda ny data från externt minne till TCM medan nuvarande data bearbetas påverkar inte systemets genomströmning. I grund och botten tillåter arkitekturen 80+% utnyttjande av bearbetningsenheterna genom sin design. Ändå finns det en möjlighet att lägga till cache och scratchpad-minne om en systemdesigner så önskar. Se figur 1.

Autonom körning och generativ AI-inferens vid kanten — Bild 1 bildtext: Den traditionella hierarkiska minnesstrukturen är tät och komplicerad. VSORAS tillvägagångssätt är strömlinjeformat och hierarkiskt.

Genom en registerliknande minnesstruktur implementerad i praktiskt taget alla minnen över alla applikationer kan fördelen med VSORA-minnesmetoden inte överskattas. Vanligtvis levererar banbrytande GenAI-processorer ensiffrig procentuell effektivitet. Till exempel ger en GenAI-processor med en nominell genomströmning på en Petaflops med nominell prestanda men mindre än 5 % effektivitet användbar prestanda på mindre än 50 Teraflops. Istället uppnår VSORA-arkitekturen mer än 10 gånger högre effektivitet.

VSORAS algoritmiska acceleratorer

VSORA introducerade två klasser av algoritmiska acceleratorer – Tyr-familjen för AD-tillämpningar och Jotunn-familjen för GenAI-acceleration. Båda levererar fantastisk genomströmning, minimal latens, låg strömförbrukning i ett litet kiselfotavtryck.

Med nominell prestanda på upp till tre Petaflops har de en typisk implementeringseffektivitet på 50-80 % oavsett algoritmtyp och en toppströmförbrukning på 30 Watt/Petaflops. Dessa är fantastiska attribut som inte rapporterats av någon konkurrerande AI-accelerator ännu.

Tyr och Jotunn är fullt programmerbara och integrerar AI- och DSP-funktioner, om än i olika mängder, och stöder val av aritmetik från 8-bitars till 64-bitars antingen heltals- eller flyttalsbaserade. Deras programmerbarhet rymmer ett universum av algoritmer, vilket gör dem algoritmagnostiska. Flera olika typer av gleshet stöds också.

VSORA-processorers egenskaper driver dem till fronten i det konkurrenskraftiga algoritmiska bearbetningslandskapet.

Stödprogram för VSORA

VSORA designade en unik kompilerings-/valideringsplattform skräddarsydd för dess hårdvaruarkitektur för att säkerställa att dess komplexa, högpresterande SoC-enheter har gott om mjukvarustöd.

En rad hierarkiska verifierings-/valideringsnivåer – ESL, hybrid, RTL och gate – – avsedd att placera den algoritmiska designern i cockpiten – levererar tryckknappsfeedback till algoritmingenjören som svar på designutforskningar av rymden. Detta hjälper honom eller henne att välja den bästa kompromissen mellan prestanda, latens, kraft och område. Programmeringskod skriven på en hög abstraktionsnivå kan mappas inriktad på olika bearbetningskärnor transparent för användaren.

Gränssnitt mellan kärnor kan implementeras inom samma kisel, mellan chips på samma PCB eller via en IP-anslutning. Synkronisering mellan kärnor hanteras automatiskt vid kompileringstidpunkten och kräver inte programvara i realtid.

Vägspärr till L4/L5 Autonom Driving och Generative AI Inference at the Edge

En framgångsrik lösning bör även innefatta programmerbarhet på fältet. Algoritmer utvecklas snabbt, drivna av nya idéer som föråldras över en natt av gårdagens toppmoderna. Möjligheten att uppgradera en algoritm i fält är en anmärkningsvärd fördel.

Medan företag i hyperskala har satt ihop enorma datorfarmar med mängder av sina processorer med högsta prestanda för att hantera avancerade mjukvarualgoritmer, är tillvägagångssättet bara praktiskt för träning, inte för att sluta sig till vid kanten.

Utbildning är vanligtvis baserad på 32-bitars eller 64-bitars flyttalsaritmetik som genererar stora datamängder. Det kräver ingen sträng latens och tolererar hög strömförbrukning samt betydande kostnader.

Slutledning vid kanten utförs vanligtvis på 8-bitars flyttalsaritmetik som genererar något mindre mängder data, men kräver kompromisslös latens, låg energiförbrukning och låg kostnad.

Energiförbrukningens inverkan på latens och effektivitet

Strömförbrukningen i CMOS IC domineras av datarörelser inte databehandling.

En studie från Stanford University ledd av professor Mark Horowitz visade att strömförbrukningen för minnesåtkomst förbrukar storleksordningar mer energi än grundläggande digitala logiska beräkningar. Se tabell II.

AD- och GenAI-acceleratorer är utmärkta exempel på enheter som domineras av datarörelser och utgör en utmaning för att begränsa strömförbrukningen.

Slutsats

AD och GenAI slutledning utgör icke-triviala utmaningar för att uppnå framgångsrika implementeringar. VSORA kan leverera en heltäckande hårdvarulösning och stödjande mjukvara för att uppfylla alla kritiska krav för att hantera AD L4/L5 och GenAI som GPT-4-acceleration till kommersiellt lönsamma kostnader.

Mer information om VSORA och dess Tyr och Jotunn finns på www.vsora.com.

Om Lauro Rizzatti

Lauro Rizzatti är affärsrådgivare till VSORA, en innovativ startup som erbjuder IP-lösningar för kisel och kiselchips, och en känd verifieringskonsult och branschexpert på hårdvaruemulering. Tidigare har han haft befattningar inom management, produktmarknadsföring, teknisk marknadsföring och ingenjörskonst.