RISC-V 64 bit IP for høy ytelse - Semiwiki

RISC-V 64 bit IP for høy ytelse – Semiwiki

Kilde node: 2855188

RISC-V as an Instruction Set Architecture (ISA) har vokst raskt i kommersiell betydning og relevans siden utgivelsen til det åpne fellesskapet i 2015, og tiltrekker seg mange IP-leverandører som nå tilbyr en rekke RTL-kjerner. Roger Espasa, administrerende direktør og grunnlegger av Semidynamikk, har presentert på RISC-V-arrangementer om hvordan deres IP er tilpasset for datautfordringer som krever høy båndbredde og høyytelseskjerner med vektorenheter. Semidynamics ble grunnlagt i 2016, har Barcelona for hovedkvarteret, og har allerede kunder i USA og Asia ved å tilby to tilpassbare RISC-V IP-er:

  • Avispado – i rekkefølge RISCV64GCV, støtter AXI og CHI
  • Atrevido – RISCV64GC som ikke er i bruk, støtter AXI og CHI

En typisk CPU har en håndfull store kjerner og store cacher, noe som gjør dem enkle å programmere, men ikke høy ytelse.

GPUer, derimot, har mange bittesmå kjerner som gir høy ytelse for parallell kode, men er vanskeligere å programmere og legge til kommunikasjonsforsinkelse gjennom PCIe-bussen når data må sendes frem og tilbake mellom CPU og GPU.

CPU, GPU min
CPU, GPU sammenligning

Tilnærmingen hos Espasa er å bruke en RISC-V-kjerne koblet til datakjerner som gjør det enkelt å programmere, høyere ytelse for parallelle koder og gir null kommunikasjonsforsinkelse. CPU pluss vektorenhet gir det beste fra begge verdener.

RISC-V CPU pluss vektorenhet, høyere ytelse
CPU pluss vektorenhet

RISC-V-spesifikasjonen dokumenterer 32 vektorregistre, og du kan legge til en rekke vektorkjerner, sammen med en tilkobling til cachen din inne i en vektorenhet.

Vektorenhet min
Vector Unit

Med Semidynamics IP kan du tilpasse antall vektorkjerner: 4, 8, 16, 32. En annen måte å se dette på er å merke seg at 4 vektorkjerner er 256-bit, opptil 32 vektorkjerner som er 2,048-bit.

IP-brukere velger også hvilke datatyper: FP64, FP32, FP16, BF16, INT64, INT32, INT16, INT8. For en AI-applikasjon kan de velge datatyper av FP16, BF16, mens en HPC-applikasjon kan velge FP64, FP32.

Den tredje tilpasningen er Vector Register Length, hvor du for mer ytelse og lavere effekt kan gjøre vektorregisteret større enn vektorenheten.

Her er blokkskjemaet til Atrevideo 423-V8:

Atrevido min
Atrevido 423 + V8 vektorenhet

Vektorenheten er helt ute av drift, noe som er unikt blant RISC-V IP-leverandører. Kombinasjonen av vektorenheten pluss Gazzillion-enheten er i stand til å strømme data med over 60 byte/sykluser.

Vektor + Gazzillion, bytes/syklusytelse
Høy båndbredde: Vektor + Gazzillion

Den lilla linjen viser leseytelsen og i L1 Cache er den 20-60 byte/syklus, andre maskiner viser et raskt fall i båndbredde etter å ha forlatt L1 Cache, mens denne tilnærmingen fortsetter, med en utflating på 56. Går til og med til DDR-minne viser en båndbredde på 40. Med en klokkefrekvens på 1.0GHz gir det 40 GB/s båndbredde.

IP-kunder kan til og med legge til sin egen RTL-kode koblet til Vector Unit for sine egne formål.

Ytelsen til matrisemultiplikasjon er viktig i AI-arbeidsbelastninger, og på OOO V8 Vector Unit er det en topp på 16 FP64 FLOPS/syklus, og en topp på 99 % for en matrisestørrelse >= 400. For en liten matrisestørrelse på 24×24 ytelsen er 7 FP64 FLOPS/syklus, eller 50 % av topp. Matrisemultiplikasjon for FP16 ved bruk av en vektorenhet med 8 vektorkjerner har en topp på 64 FP16 FLOPS/syklus, og 99 % av topp for M >= 600.

En benchmark for gjenstandsdeteksjon i sanntid kalt YOLO (You Only Look Once) ble kjørt på Atrevido 423-V8-plattformen, og den viste 58 % høyere ytelse per vektorkjerne enn konkurrentene. Disse resultatene var for video med 24 lag. 5.56 Gops/ramme og ca 9M parametere.

YOLO ytelse
YOLO sammenligning

Oppsummering

Å velge en RISC-V IP-leverandør er en komplisert oppgave, så å vite om leverandører som Semidynamics kan hjelpe deg å bedre forstå hvordan en tilpasset tilnærming mest effektivt kan kjøre dine spesifikke arbeidsbelastninger. Med Semidynamics kan du velge mellom arkitektoniske valg som i rekkefølge eller ute av rekkefølge, med eller uten vektorenheter. De rapporterte tallene fra denne IP-leverandøren ser lovende ut, og jeg ser frem til fremtidige kunngjøringer.

Relaterte videoer

Del dette innlegget via:

Tidstempel:

Mer fra Semiwiki