Pitkäaikainen tiesulku kannattavaan L4/L5 autonomiseen ajamiseen ja generatiiviseen tekoälypäätelmään reunassa - Semiwiki

Pitkäaikainen tiesulku kannattavaan L4/L5 autonomiseen ajamiseen ja generatiiviseen tekoälypäätelmään reunassa – Semiwiki

Lähdesolmu: 2934975

Kaksi viimeaikaista ohjelmistopohjaista algoritmitekniikkaa – autonominen ajo (ADAS/AD) ja generatiivinen tekoäly (GenAI) – pitävät puolijohdesuunnitteluyhteisön hereillä öisin.

Vaikka ADAS tasoilla 2 ja 3 ovat raiteilla, AD tasoilla 4 ja 5 ovat kaukana todellisuudesta, mikä aiheuttaa riskipääomainnostuksen ja -rahojen laskua. Nykyään GenAI saa huomion, ja riskipääomayritykset sijoittavat innokkaasti miljardeja dollareita.

Molemmat tekniikat perustuvat nykyaikaisiin, monimutkaisiin algoritmeihin. Heidän koulutuksensa ja päätelmiensä käsittelyssä on muutamia yhteisiä ominaisuuksia, joista jotkut ovat kriittisiä, toiset tärkeitä, mutta eivät välttämättömiä: Katso taulukko I.

Generatiivinen AI-päätelmä reunalla
Taulukon I kuvateksti: Algoritmin harjoittelu ja päätelmät käyttävät samaa, mutta eivät kaikkia kriittisiä ominaisuuksia. Lähde: VSORA

Näiden teknologioiden huomattavaa ohjelmistokehitystä ei ole toistaiseksi toistettu algoritmisten laitteistojen edistyksillä niiden suorittamisen nopeuttamiseksi. Esimerkiksi huippuluokan algoritmiset prosessorit eivät pysty vastaamaan ChatGPT-4-kyselyihin yhdessä tai kahdessa sekunnissa hintaan 2 ¢ kyselyä kohden, Google-haun määrittämä vertailukohta, tai käsitellä valtavia tietoja. AD-anturit keräävät alle 20 millisekunnissa.

Siihen asti, kunnes ranskalainen startup VSORA sijoitti aivovoimaa korjatakseen muistimuurina tunnetun muistin pullonkaulan.

Muistin seinä

CPU:n muistiseinän kuvasivat ensimmäisen kerran Wulf ja McKee vuonna 1994. Siitä lähtien muistin käyttö on muodostunut tietojenkäsittelyn suorituskyvyn pullonkaulaksi. Prosessorin suorituskyvyn edistyminen ei ole näkynyt muistin käytön edistymisessä, mikä saa prosessorit odottamaan yhä pidempään muistien toimittamaa dataa. Loppujen lopuksi prosessorin hyötysuhde putoaa alle 100 %.

Ongelman ratkaisemiseksi puolijohdeteollisuus loi monitasoisen hierarkkisen muistirakenteen, jossa on useita välimuistitasoja lähempänä prosessoria, mikä vähentää liikenteen määrää hitaampien pää- ja ulkoisten muistien kanssa.

AD- ja GenAI-prosessorien suorituskyky riippuu enemmän kuin muun tyyppisten tietokonelaitteiden laajasta muistin kaistanleveydestä.

VSORA, joka perustettiin vuonna 2015 kohdistamaan 5G-sovelluksiin, keksi patentoidun arkkitehtuurin, joka kokoaa hierarkkisen muistirakenteen suureksi, laajakaistaiseksi, tiiviisti kytkettyksi muistiksi (TCM), jota käytetään yhdellä kellojaksolla.

Prosessoriytimien näkökulmasta TCM näyttää ja toimii kuin rekistereiden meri, jonka määrä on megatavua verrattuna todellisten fyysisten rekisterien kilotavuihin. Mahdollisuus käyttää mitä tahansa TMC:n muistisolua yhdellä jaksolla tuottaa suuren suoritusnopeuden, pienen viiveen ja alhaisen virrankulutuksen. Se vaatii myös vähemmän piialuetta. Uuden tiedon lataaminen ulkoisesta muistista TCM:ään nykyisten tietojen käsittelyn aikana ei vaikuta järjestelmän suorituskykyyn. Periaatteessa arkkitehtuuri mahdollistaa 80+% prosessointiyksiköiden käytön suunnittelunsa kautta. Silti on mahdollisuus lisätä välimuistia ja scratchpad-muistia, jos järjestelmän suunnittelija niin haluaa. Katso kuva 1.

Autonominen ajaminen ja generatiivinen tekoäly päättely reunalla
Kuvan 1 kuvateksti: Perinteinen hierarkkinen muistirakenne on tiheä ja monimutkainen. VSORA:n lähestymistapa on virtaviivainen ja hierarkkinen.

Rekisterimäisen muistirakenteen ansiosta, joka on toteutettu käytännössä kaikissa muisteissa kaikissa sovelluksissa, VSORA-muistilähestymistavan etua ei voi yliarvioida. Tyypillisesti huippuluokan GenAI-prosessorit tarjoavat yksinumeroisen prosentuaalisen tehokkuuden. Esimerkiksi GenAI-prosessori, jonka nimellisteho on yksi Petaflopsin nimellissuorituskyky, mutta jonka hyötysuhde on alle 5 %, tuottaa käyttökelpoisen suorituskyvyn alle 50 teraflopsia. Sen sijaan VSORA-arkkitehtuurilla saavutetaan yli 10 kertaa suurempi tehokkuus.

VSORA:n algoritmiset kiihdytit

VSORA esitteli kaksi algoritmikiihdytinluokkaa – Tyr-perheen AD-sovelluksiin ja Jotunn-perhe GenAI-kiihdytykseen. Molemmat tarjoavat loistavan suorituskyvyn, minimaalisen latenssin ja alhaisen virrankulutuksen pienessä piijalanjäljessä.

Jopa kolmen petaflopsin nimellissuorituskyvyn ansiosta niiden tyypillinen toteutustehokkuus on 50-80 % algoritmityypistä riippumatta ja huippuvirrankulutus 30 wattia/petaflops. Nämä ovat huippuominaisuuksia, joita mikään kilpaileva tekoälykiihdytin ei ole vielä raportoinut.

Tyr ja Jotunn ovat täysin ohjelmoitavia ja integroivat AI- ja DSP-ominaisuudet, vaikkakin eri määrin, ja tukevat aritmeettisen valinnan lennossa 8-bittisestä 64-bittiseen joko kokonaisluku- tai liukulukupohjaiseen. Niiden ohjelmoitavuus mahdollistaa algoritmien universumin, mikä tekee niistä algoritmien agnostikkoja. Useita erilaisia ​​harvoin tyyppejä tuetaan myös.

VSORA-prosessorien attribuutit ajavat ne kilpailevan algoritmisen prosessoinnin eturintamassa.

VSORA-tukiohjelmisto

VSORA suunnitteli ainutlaatuisen käännös-/validointialustan, joka on räätälöity sen laitteistoarkkitehtuuriin varmistaakseen, että sen monimutkaisilla ja tehokkailla SoC-laitteilla on runsaasti ohjelmistotukea.

Tarkoituksena on laittaa algoritminen suunnittelija ohjaamoon. Hierarkkiset varmennus-/validointitasot – ESL, hybridi, RTL ja portti – antavat painikepalautteen algoritmi-insinöörille vastauksena suunnittelun avaruustutkimuksiin. Tämä auttaa häntä valitsemaan parhaan kompromissin suorituskyvyn, latenssin, tehon ja alueen välillä. Korkealla abstraktiotasolla kirjoitettu ohjelmointikoodi voidaan kohdistaa eri käsittelyytimiin läpinäkyvästi käyttäjälle.

Ytimen välinen liitäntä voidaan toteuttaa saman piin sisällä, samalla piirilevyllä olevien sirujen välillä tai IP-yhteyden kautta. Synkronointi ytimien välillä hoidetaan automaattisesti käännöshetkellä, eikä se vaadi reaaliaikaisia ​​ohjelmistotoimia.

Tiesulku L4/L5 autonomiseen ajamiseen ja generatiiviseen AI-päätelmään reunassa

Onnistunut ratkaisu sisältää myös ohjelmoitavuuden kentällä. Algoritmit kehittyvät nopeasti uusien ideoiden johdosta, jotka vanhenivat yhdessä yössä eilisen huipputason. Mahdollisuus päivittää algoritmi kentällä on huomattava etu.

Vaikka hyperscale-yritykset ovat koonneet valtavia laskentatiloja, joissa on lukuisia tehokkaimpia prosessoreita käsitelläkseen edistyneitä ohjelmistoalgoritmeja, lähestymistapa on käytännöllinen vain koulutuksessa, ei päätelmien tekemiseen reunalla.

Koulutus perustuu tyypillisesti 32-bittiseen tai 64-bittiseen liukulukuaritmetiikkaan, joka tuottaa suuria tietomääriä. Se ei vaadi tiukkaa latenssia ja sietää suurta virrankulutusta sekä huomattavia kustannuksia.

Reunojen päättely suoritetaan tyypillisesti 8-bittisellä liukulukuaritmetiikalla, joka tuottaa hieman vähemmän dataa, mutta vaatii tinkimätöntä latenssia, alhaista energiankulutusta ja alhaisia ​​kustannuksia.

Energiankulutuksen vaikutus latenssiin ja tehokkuuteen

CMOS-piirilevyjen virrankulutusta hallitsee tiedonsiirto, ei tietojenkäsittely.

Professori Mark Horowitzin johtama Stanfordin yliopiston tutkimus osoitti, että muistin käytön virrankulutus kuluttaa suuruusluokkaa enemmän energiaa kuin digitaalisen logiikan peruslaskelmat. Katso taulukko II.

Autonominen ajaminen ja generatiivinen tekoäly päättely reunalla
Taulukon II kuvateksti: Summaimet ja kertoimet häviävät alle yhdestä Picojoulesta, kun käytetään kokonaislukuaritmetiikkaa, muutamaan Picojouleen liukulukuaritmetiikkaa käsiteltäessä. Välimuistissa olevien tietojen käyttämiseen käytetty energia hyppää yhden suuruusluokan 20–100 PicoJouleen ja jopa kolme suuruusluokkaa yli 1,000 XNUMX PicoJouleen, kun tietoja käytetään DRAMissa. Lähde: Stanfordin yliopisto.

AD- ja GenAI-kiihdyttimet ovat parhaita esimerkkejä laitteista, joita hallitsee tiedonsiirto ja joka asettaa haasteen virrankulutuksen hillitsemiseen.

Yhteenveto

AD- ja GenAI-päätelmät asettavat ei-triviaaleja haasteita onnistuneiden toteutusten saavuttamiseksi. VSORA voi toimittaa kattavan laitteistoratkaisun ja tukiohjelmiston, joka täyttää kaikki kriittiset vaatimukset AD L4/L5:n ja GenAI:n kaltaisen GPT-4-kiihdytyksen käsittelemiseksi kaupallisesti kannattavin kustannuksin.

Lisätietoja VSORAsta ja sen Tyristä ja Jotunnista löytyy osoitteesta www.vsora.com.

Tietoja Lauro Rizzattista

Lauro Rizzatti on yritysneuvoja VSORA, innovatiivinen startup, joka tarjoaa pii-IP-ratkaisuja ja piisiruja, sekä tunnettu todentamiskonsultti ja laitteistoemuloinnin alan asiantuntija. Aiemmin hän työskenteli johdon, tuotemarkkinoinnin, teknisen markkinoinnin ja suunnittelun tehtävissä.

Lue myös:

Soitec suunnittelee puolijohdeteollisuuden tulevaisuutta

ISO 21434 Cybersecurity Aware SoC -kehitykseen

Ennakoiva huolto autojen toiminnallisen turvallisuuden kontekstissa

Jaa tämä viesti:

Aikaleima:

Lisää aiheesta Semiwiki