Datacentrerade omkonfigurerbara Array-chiplets (Princeton)

Datacentrerade omkonfigurerbara Array-chiplets (Princeton)

Källnod: 2602549

En teknisk artikel med titeln "Massive Data-Centric Parallelism in the Chiplet Era" publicerades av forskare vid Princeton University.

Sammanfattning:

"Traditionellt exekveras massivt parallella applikationer på distribuerade system, där beräkningsnoder är tillräckligt långt borta för att parallelliseringsscheman måste minimera kommunikation och synkronisering för att uppnå skalbarhet. Att kartlägga kommunikationsintensiva arbetsbelastningar till distribuerade system kräver komplicerad problempartitionering och förbearbetning av dataset. Med den nuvarande AI-drivna trenden att ha tusentals sammankopplade processorer per chip, finns det en möjlighet att ompröva dessa kommunikationsflaskhalsade arbetsbelastningar. Denna flaskhals uppstår ofta från datastrukturer, som orsakar oregelbundna minnesåtkomster och dålig cachelokalitet.
Nyligen genomförda arbeten har introducerat uppgiftsbaserade parallelliseringsscheman för att påskynda genomgång av grafer och andra glesa arbetsbelastningar. Datastrukturgenomgångar delas upp i uppgifter och distribueras över bearbetningsenheter (PU). Dalorex visade den högsta skalbarheten (upp till tusentals PU:er på ett enda chip) genom att ha hela datauppsättningen på chipet, spridd över PU:er och utföra uppgifterna på PU:n där data är lokal. Men det väckte också frågor om hur man kan skala till större datamängder när allt minne finns på chip, och till vilken kostnad.

För att möta dessa utmaningar föreslår vi en skalbar arkitektur som består av ett rutnät av DCRA-chiplets (Data-Centric Reconfigurable Array). Pakettidsomkonfiguration gör det möjligt att skapa chipprodukter som optimerar för olika målmått, såsom tid till lösning, energi eller kostnad, medan omkonfigurationer av programvara undviker nätverksmättnad när de skalas till miljontals PU:er över många chippaket. Vi utvärderar sex applikationer och fyra datauppsättningar, med flera konfigurationer och minnesteknologier, för att tillhandahålla en detaljerad analys av prestanda, kraft och kostnad för datalokalt exekvering i stor skala. Vår parallellisering av Breadth-First-Search med RMAT-26 över en miljon PU:er når 3323 GTEPS."

Hitta det tekniska papper här. Publicerad april 2023 (förtryck).

Orenes-Vera, Marcelo, Esin Tureci, David Wentzlaf och Margaret Martonosi. "Massiv datacentrerad parallellism i Chiplet-eran." arXiv förtryck arXiv: 2304.09389 (2023).

Relaterad
Minikonsortier som bildas runt chips
Kommersiella chiplet-marknadsplatser är fortfarande vid horisonten, men företag börjar tidigt med fler kommanditbolag.
Chipletsäkerhetsrisker underskattade
Storleken på säkerhetsutmaningarna för kommersiella chiplets är skrämmande.
Kapplöpet mot blandade gjuterichiplets
Utmaningarna med att montera chiplets från olika gjuterier har precis börjat dyka upp.
Designöverväganden och senaste framsteg inom chiplets (UC Berkeley/Peking University)

Tidsstämpel:

Mer från Semi-teknik