GDDR6 offre le prestazioni per l'inferenza AI/ML

GDDR6 offre le prestazioni per l'inferenza AI/ML

Nodo di origine: 2654216

La velocità di throughput della memoria e la bassa latenza sono fondamentali poiché l'inferenza si sposta dal data center al perimetro della rete.

popolarità

L'intelligenza artificiale/ML si sta evolvendo a un ritmo rapidissimo. Non passa settimana in questo momento senza alcuni nuovi ed entusiasmanti sviluppi nel campo e applicazioni come ChatGPT hanno portato le capacità di intelligenza artificiale generativa saldamente in prima linea all'attenzione del pubblico.

L'AI/ML è in realtà composta da due applicazioni: training e inferenza. Ognuno di essi fa affidamento sulle prestazioni della memoria e ciascuno presenta una serie di requisiti univoci che guidano la scelta della migliore soluzione di memoria.

Con la formazione, la larghezza di banda e la capacità della memoria sono requisiti critici. Ciò è particolarmente vero se si considerano le dimensioni e la complessità dei modelli di dati delle reti neurali che crescono a un ritmo di 10 volte all’anno. L'accuratezza della rete neurale dipende dalla qualità e dalla quantità di esempi nel set di dati di addestramento, il che si traduce nella necessità di enormi quantità di dati e quindi di larghezza di banda e capacità di memoria.

Dato il valore creato attraverso la formazione, esiste un forte incentivo a completare i percorsi formativi il più rapidamente possibile. Poiché le applicazioni di formazione vengono eseguite in data center sempre più limitati in termini di energia e spazio, vengono favorite le soluzioni che offrono efficienza energetica e dimensioni ridotte. Considerati tutti questi requisiti, HBM3 è una soluzione di memoria ideale per l'hardware di addestramento AI. Fornisce eccellenti capacità di larghezza di banda e capacità.

L'output dell'addestramento della rete neurale è un modello di inferenza che può essere utilizzato su vasta scala. Con questo modello, un dispositivo di inferenza può elaborare e interpretare input al di fuori dei limiti dei dati di addestramento. Per l'inferenza, la velocità di throughput della memoria e la bassa latenza sono fondamentali, soprattutto quando è necessaria un'azione in tempo reale. Con il crescente spostamento dell’inferenza dell’intelligenza artificiale dal cuore del data center ai confini della rete, queste funzionalità di memoria stanno diventando ancora più critiche.

I progettisti hanno una serie di scelte di memoria per l'inferenza AI/ML, ma per quanto riguarda il parametro critico della larghezza di banda, la memoria GDDR6 brilla davvero. Con una velocità dati di 24 Gigabit al secondo (Gb/s) e un'interfaccia a 32 bit, un dispositivo GDDR6 può fornire 96 Gigabyte al secondo (GB/s) di larghezza di banda della memoria, più del doppio di quella di qualsiasi DDR o memoria alternativa. Soluzioni LPDDR. La memoria GDDR6 offre un'ottima combinazione di velocità, larghezza di banda e prestazioni di latenza per l'inferenza AI/ML, in particolare per l'inferenza all'edge.

Il sottosistema di interfaccia di memoria Rambus GDDR6 offre prestazioni di 24 Gb/s e si basa su oltre 30 anni di esperienza nell'integrità del segnale ad alta velocità e nell'integrità dell'alimentazione (SI/PI), fondamentali per il funzionamento di GDDR6 ad alte velocità. È costituito da un PHY e un controller digitale, che fornisce un sottosistema di interfaccia di memoria GDDR6 completo.

Unisciti a me al webinar Rambus questo mese su "Inferenza AI/ML ad alte prestazioni con memoria GDDR24 da 6 GB" per scoprire in che modo GDDR6 supporta i requisiti di memoria e prestazioni dei carichi di lavoro di inferenza AI/ML e conoscere alcune delle considerazioni chiave sulla progettazione e l'implementazione dei sottosistemi di interfaccia di memoria GDDR6.

Risorse:

Franco Ferro

Franco Ferro

  (tutti i post)
Frank Ferro è direttore senior del marketing di prodotto per i core IP di Rambus.

Timestamp:

Di più da Semiingegneria