GDDR6 liefert die Leistung für AI/ML-Inferenz

Neuauflage von Plato

Verfolger: 0

STELLUNGNAHME

Speicherdurchsatzgeschwindigkeit und geringe Latenz sind entscheidend, da sich die Inferenz vom Rechenzentrum zum Netzwerkrand verlagert.

KI/ML entwickelt sich rasant weiter. Derzeit vergeht keine Woche ohne einige neue und aufregende Entwicklungen auf diesem Gebiet, und Anwendungen wie ChatGPT haben generative KI-Funktionen fest in den Vordergrund der öffentlichen Aufmerksamkeit gerückt.

Bei KI/ML handelt es sich eigentlich um zwei Anwendungen: Training und Inferenz. Bei jedem hängt es von der Speicherleistung ab und jeder hat einzigartige Anforderungen, die die Wahl für die beste Speicherlösung bestimmen.

Beim Training sind Speicherbandbreite und -kapazität entscheidende Anforderungen. Dies gilt insbesondere angesichts der Größe und Komplexität der Datenmodelle neuronaler Netzwerke, die jährlich um das Zehnfache gewachsen sind. Die Genauigkeit neuronaler Netze hängt von der Qualität und Quantität der Beispiele im Trainingsdatensatz ab, was dazu führt, dass enorme Datenmengen und damit Speicherbandbreite und -kapazität erforderlich sind.

Angesichts des durch Training geschaffenen Mehrwerts besteht ein starker Anreiz, Trainingsläufe so schnell wie möglich abzuschließen. Da Trainingsanwendungen in Rechenzentren ausgeführt werden, deren Strom- und Platzbedarf zunehmend eingeschränkt sind, werden Lösungen bevorzugt, die Energieeffizienz und eine geringere Größe bieten. Angesichts all dieser Anforderungen ist HBM3 eine ideale Speicherlösung für KI-Trainingshardware. Es bietet hervorragende Bandbreiten- und Kapazitätsmöglichkeiten.

Das Ergebnis des neuronalen Netzwerktrainings ist ein Inferenzmodell, das breit einsetzbar ist. Mit diesem Modell kann ein Inferenzgerät Eingaben außerhalb der Grenzen der Trainingsdaten verarbeiten und interpretieren. Für die Inferenz sind die Speicherdurchsatzgeschwindigkeit und die geringe Latenz von entscheidender Bedeutung, insbesondere wenn Echtzeitaktionen erforderlich sind. Da sich die KI-Inferenz immer mehr vom Herzen des Rechenzentrums an den Rand des Netzwerks verlagert, werden diese Speicherfunktionen noch wichtiger.

Designer haben eine Reihe von Speicheroptionen für die AI/ML-Inferenz, aber beim kritischen Parameter der Bandbreite glänzt der GDDR6-Speicher wirklich. Bei einer Datenrate von 24 Gigabit pro Sekunde (Gb/s) und einer 32-Bit breiten Schnittstelle kann ein GDDR6-Gerät eine Speicherbandbreite von 96 Gigabyte pro Sekunde (GB/s) liefern, mehr als das Doppelte der Speicherbandbreite jedes alternativen DDR- oder DDR6-Geräts LPDDR-Lösungen. GDDRXNUMX-Speicher bietet eine großartige Kombination aus Geschwindigkeit, Bandbreite und Latenzleistung für AI/ML-Inferenz, insbesondere für Inferenz am Edge.

Das Rambus GDDR6-Speicherschnittstellen-Subsystem bietet eine Leistung von 24 Gbit/s und basiert auf über 30 Jahren Erfahrung in den Bereichen Hochgeschwindigkeits-Signalintegrität und Leistungsintegrität (SI/PI), die für den Betrieb von GDDR6 bei hohen Geschwindigkeiten von entscheidender Bedeutung sind. Es besteht aus einem PHY und einem digitalen Controller und bietet so ein vollständiges GDDR6-Speicherschnittstellen-Subsystem.

Besuchen Sie mich diesen Monat beim Rambus-Webinar zum Thema „Leistungsstarke KI/ML-Inferenz mit 24G GDDR6-Speicher” um herauszufinden, wie GDDR6 die Speicher- und Leistungsanforderungen von AI/ML-Inferenz-Workloads unterstützt, und erfahren Sie mehr über einige der wichtigsten Design- und Implementierungsüberlegungen von GDDR6-Speicherschnittstellen-Subsystemen.

Ressourcen: