Rozwój sieci neuronowych wymaga bezprecedensowego skalowania półprzewodników

Węzeł źródłowy: 1878456

Prawda jest taka, że ​​jesteśmy dopiero na początku rewolucji w zakresie sztucznej inteligencji (AI). Możliwości sztucznej inteligencji dopiero teraz zaczynają pokazywać wskazówki dotyczące przyszłości. Na przykład samochody wykorzystują duże, złożone modele sieci neuronowych nie tylko do zrozumienia otoczenia, ale także do kierowania i kontrolowania siebie. W przypadku każdej aplikacji muszą istnieć dane szkoleniowe, aby utworzyć przydatne sieci. Rozmiar zarówno operacji uczenia, jak i wnioskowania szybko rośnie w miarę włączania do modeli przydatnych danych ze świata rzeczywistego. Przyjrzyjmy się rozwojowi modeli w ostatnich latach, aby zrozumieć, w jaki sposób wpływa to na zapotrzebowanie na moc obliczeniową na potrzeby uczenia i wnioskowania.

Rozwój sieci neuronowej
Rozwój sieci neuronowej

Podczas prezentacji na forum cyfrowym pomysłów Ansys 2021 wiceprezes ds. inżynierii w firmie Cerebras, Dhiraj Mallik, przedstawił pewien wgląd w rozwój modeli sieci neuronowych. W ciągu ostatnich dwóch lat rozmiar modelu wzrósł 1000-krotnie, z BERT Base (110 MB) do GPT-3 (175 GB). A w przyszłości pojawi się model MSFT-1T o pojemności 1 TB. Model GPT-3 – co jest tematem samym w sobie interesującym – był trenowany na konwencjonalnym sprzęcie z wykorzystaniem procesorów graficznych 1024 przez 4 miesiące. Jest to model przetwarzania języka naturalnego (NLP), który wykorzystuje większość danych tekstowych w Internecie i innych źródłach. Został opracowany przez Open AI i obecnie stanowi podstawę OpenAI Codex, czyli aplikacji, która może pisać użyteczny kod programistyczny w kilku językach na podstawie instrukcji w prostym języku od użytkowników. GPT-3 można używać do pisania krótkich artykułów, w przypadku których większość czytelników nie jest w stanie stwierdzić, że zostały napisane przez program AI.

Jak widać powyżej, uruchomienie 1024 procesorów graficznych przez 4 miesiące jest niewykonalne. W swoim przemówieniu zatytułowanym „Dostarczanie bezprecedensowego przyspieszenia AP: poza prawem Moore’a” Dhiraj zwraca uwagę, że postęp niezbędny do wspierania tego poziomu rozwoju półprzewodników wykracza daleko poza to, do czego jesteśmy przyzwyczajeni w przypadku prawa Moore’a. W odpowiedzi na tę dostrzeganą potrzebę rynkową firma Cerebras wypuściła w 1 r. silnik AI WSE-2019 w skali płytki – 56 razy większy niż jakikolwiek kiedykolwiek wyprodukowany chip. Półtora roku później ogłoszono WSE-2, ponownie największy chip, jaki kiedykolwiek zbudowano:

  • 6 bilionów tranzystorów
  • 850,000 XNUMX zoptymalizowanych rdzeni AI
  • 40 GB RAM
  • Przepustowość pamięci 20 petabajtów/s
  • Przepustowość sieci szkieletowej 220 petabajtów
  • Zbudowany w procesie N7 firmy TSMC
  • Wafel zawiera 84 matryce, każda o średnicy 550 mm2.

System CS-2 obejmujący WSE-2 może pomieścić modele AI o 120 bilionach parametrów. Jeszcze bardziej imponujące jest to, że systemy CS-2 można łączyć w klastry składające się ze 192 jednostek, co zapewnia niemal liniowy wzrost wydajności. Cerebras opracował podsystem pamięci, który dezagreguje pamięć i obliczenia, aby zapewnić lepsze skalowanie i lepszą przepustowość w przypadku wyjątkowo dużych modeli. Cerebras opracował także optymalizacje pod kątem rzadkości w seriach treningowych, co oszczędza czas i energię.

Prezentacja Dhiraja bardziej szczegółowo omawia ich możliwości, szczególnie w obszarze wydajnego skalowania w przypadku większych modeli w celu utrzymania przepustowości i pojemności. Z perspektywy półprzewodników interesujące jest również zobaczenie, jak Cerebras przeanalizował spadek podczerwieni, elektromigrację i sygnał ESD w projekcie, który jest o 2 rzędy wielkości większy niż cokolwiek innego, czego kiedykolwiek próbował przemysł półprzewodników. Dhiraj opowiada o tym, jak na każdym poziomie projektu – płytka, blok i pełna płytka – firma Cerebras korzystała z rozwiązania Ansys RedHawk-SC na wielu procesorach w celu statycznego i dynamicznego potwierdzania spadku sygnału w podczerwieni. RedHawk-SC był również używany do kontroli elektromigracji mocy i elektromigracji sygnału. Podobnie wykorzystano Ansys Pathfinder do sprawdzenia odporności na wyładowania elektrostatyczne i gęstości prądu.

W przypadku tak dużego kawałka krzemu przy 7 nm decyzje dotyczące narzędzia są dosłownie typu „zrób lub złam”. Budowanie tego przełomowego krzemu wymaga wielu bardzo dobrze przemyślanych wyborów w procesie rozwoju, a niezrównana wydajność jest oczywiście głównym problemem. Jednak, jak wyraźnie pokazuje prezentacja Dhiraja, poziom zwiększonej mocy obliczeniowej CS-2 jest niezbędny do zarządzania tempem wzrostu, które obserwujemy w modelach AI/ML. Bez wątpienia zobaczymy innowacje, które przekraczają dziś naszą wyobraźnię w dziedzinie AI. Tak jak internet i chmura zmieniły technologię, a nawet społeczeństwo, możemy spodziewać się, że rozwój nowej technologii sztucznej inteligencji radykalnie zmieni nasz świat. Jeśli chcesz dowiedzieć się więcej o krzemie Cerebras, zapoznaj się z prezentacją Dhiraja na forum cyfrowym Ansys IDEAS pod adresem www.ansys.com/ideas.

Udostępnij ten post przez: Źródło: https://semiwiki.com/eda/303587-neural-network-growth-requires-unprecedented-semiconductor-scaling/

Znak czasu:

Więcej z Półwiki