Integracja CiM w celu przyspieszenia wnioskowania ML

Opublikowane ponownie przez Plato

Obserwuje: 0

Naukowcy z Uniwersytetu Purdue opublikowali artykuł techniczny zatytułowany „WWW: Co, kiedy, gdzie wykonać obliczenia w pamięci”.

Abstrakcyjny:

„Obliczenia w pamięci (CiM) okazały się przekonującym rozwiązaniem pozwalającym obniżyć wysokie koszty przesyłania danych w maszynach von Neumanna. CiM może wykonywać masowo równoległe operacje ogólnego mnożenia macierzy (GEMM) w pamięci, co jest dominującym obliczeniem w wnioskowaniu uczenia maszynowego (ML). Jednakże zmiana przeznaczenia pamięci do celów obliczeniowych rodzi kluczowe pytania: 1) Jakiego typu CiM użyć: Biorąc pod uwagę mnogość analogowych i cyfrowych CiM, konieczne jest określenie ich przydatności z punktu widzenia systemowego. 2) Kiedy stosować CiM: Wnioskowanie ML obejmuje obciążenia o różnych wymaganiach dotyczących pamięci i obliczeń, co utrudnia określenie, kiedy CiM jest bardziej korzystny niż standardowe rdzenie przetwarzające. 3) Gdzie zintegrować CiM: Każdy poziom pamięci ma inną przepustowość i pojemność, co wpływa na przepływ danych i zalety lokalizacji wynikające z integracji CiM.
W tym artykule badamy odpowiedzi na te pytania dotyczące integracji CiM w celu przyspieszenia wnioskowania ML. Używamy Timeloop-Accelergy do wczesnej oceny prototypów CiM na poziomie systemu, w tym prymitywów analogowych i cyfrowych. Integrujemy CiM z różnymi poziomami pamięci podręcznej w architekturze bazowej podobnej do Nvidia A100 i dostosowujemy przepływ danych do różnych obciążeń ML. Nasze eksperymenty pokazują, że architektury CiM poprawiają efektywność energetyczną, osiągając do 0.12 razy mniej energii w porównaniu z ustaloną wartością bazową z precyzją INT-8 i do 4 razy większą wydajność dzięki przeplataniu wag i powielaniu. Proponowana praca zapewnia wgląd w to, jakiego typu CiM należy użyć oraz kiedy i gdzie optymalnie zintegrować go z hierarchią pamięci podręcznej w celu akceleracji GEMM”.

Znajdź papier techniczny tutaj. Opublikowano w grudniu 2023 r. (przeddruk).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty i Kaushik Roy. „WWW: Co, kiedy, gdzie obliczać w pamięci”. Przedruk arXiv arXiv:2312.15896 (2023).

Powiązane artykuły
Zwiększanie efektywności energetycznej AI dzięki przetwarzaniu w pamięci
Jak przetwarzać obciążenia w skali zetta i nie przekraczać ustalonego budżetu mocy.
Modelowanie obliczeń w pamięci z wydajnością biologiczną
Generatywna sztuczna inteligencja zmusza producentów chipów do bardziej inteligentnego wykorzystywania zasobów obliczeniowych.
SRAM w AI: przyszłość pamięci
Dlaczego pamięć SRAM jest postrzegana jako krytyczny element nowych i tradycyjnych architektur obliczeniowych.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

Znak czasu: 16 stycznia 2024 r.

Znak czasu: Lipiec 6, 2023

Integracja CiM w celu przyspieszenia wnioskowania ML

Opublikowane ponownie przez Plato

Abstrakcyjny:

Więcej z Inżynieria semi

Załamanie metodologii projektowania i weryfikacji

Projekt IP

Problemy z restrukturyzacją RTL

Ułożony ferroelektryczny układ pamięci składający się z bocznie bramkowanych ferroelektrycznych tranzystorów polowych

Trenowanie dużych modeli LLM z miliardami do bilionów parametrów na superkomputerze Frontier ORNL

Fabryki zaczynają rozwijać uczenie maszynowe

Bity badawcze: 3 stycznia

Platforma współprojektowania Edge HW-SW integrująca akceleratory RISC-V i HW

Warstwa translacji DRAM, mechanizm elastycznego mapowania adresów i migracji danych w urządzeniach pamięci opartych na CXL

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto