De groei van neurale netwerken vereist een ongekende schaling van halfgeleiders

Bronknooppunt: 1878456

De waarheid is dat we nog maar aan het begin staan ​​van de revolutie op het gebied van kunstmatige intelligentie (AI). De mogelijkheden van AI beginnen nu pas hints te geven van wat de toekomst in petto heeft. Auto's gebruiken bijvoorbeeld grote, complexe neurale netwerkmodellen om niet alleen hun omgeving te begrijpen, maar ook om zichzelf te sturen en te controleren. Voor elke toepassing moeten er trainingsgegevens zijn om nuttige netwerken te creëren. De omvang van zowel de trainings- als de gevolgtrekkingsoperaties groeit snel naarmate bruikbare gegevens uit de echte wereld in modellen worden opgenomen. Laten we eens kijken naar de groei van modellen in de afgelopen jaren om te begrijpen hoe dit de behoefte aan verwerkingskracht voor training en gevolgtrekking drijft.

Neurale netwerkgroei
Neurale netwerkgroei

In een presentatie op het Ansys 2021 Ideas Digital Forum gaf de VP Engineering bij Cerebras, Dhiraj Mallik, enig inzicht in de groei van neurale netwerkmodellen. In de afgelopen twee jaar is de modelgrootte 1000x groter geworden, van BERT Base (110 MB) naar GPT-3 (175 GB). En in het verschiet is er het MSFT-1T-model, met een grootte van 1 TB. Het GPT-3-model – dat op zichzelf een interessant onderwerp is – werd vier maanden lang getraind met conventionele hardware met behulp van 1024 GPU's. Het is een model voor natuurlijke taalverwerking (NLP) dat de meeste tekstgegevens op internet en andere bronnen gebruikt. Het is ontwikkeld door Open AI en vormt nu de basis voor de OpenAI Codex, een applicatie die nuttige programmeercode in verschillende talen kan schrijven op basis van eenvoudige taalinstructies van gebruikers. GPT-4 kan worden gebruikt om korte artikelen te schrijven waarvan de meeste lezers niet kunnen zeggen dat ze door een AI-programma zijn geschreven.

Zoals je hierboven kunt zien, is het niet haalbaar om 1024 GPU's gedurende 4 maanden te gebruiken. In zijn lezing getiteld ‘Delivering Unprecedented AP Acceleration: Beyond Moore’s Law’ maakt Dhiraj duidelijk dat de vooruitgang die nodig is om dit niveau van halfgeleidergroei te ondersteunen veel verder gaat dan wat we gewend zijn te zien met de wet van Moore. Als reactie op deze waargenomen marktbehoefte bracht Cerebras in 1 hun WSE-2019 AI-engine op waferschaal uit – 56 keer groter dan welke chip dan ook ooit geproduceerd. Anderhalf jaar later kondigden ze de WSE-2 aan, wederom de grootste chip ooit gebouwd met:

  • 6 biljoen transistoren
  • 850,000 geoptimaliseerde AI-kernen
  • 40 GB RAM
  • 20 petabytes/s geheugenbandbreedte
  • 220 petabytes stofbandbreedte
  • Gebouwd met het N7-proces van TSMC
  • Een wafer bevat 84 matrijzen, elk 550 mm2.

Het CS-2-systeem dat de WSE-2 inkapselt, is geschikt voor AI-modellen met 120 biljoen parameters. Wat zelfs nog indrukwekkender is, is dat CS-2-systemen kunnen worden ingebouwd in clusters van 192 eenheden, wat een vrijwel lineaire prestatiewinst oplevert. Cerebras heeft een geheugensubsysteem ontwikkeld dat geheugen en berekeningen opsplitst om een ​​betere schaalbaarheid en verbeterde doorvoer voor extreem grote modellen te bieden. Cerebras heeft ook optimalisaties ontwikkeld voor spaarzaamheid in trainingssets, wat tijd en kracht bespaart.

De presentatie van Dhiraj gaat dieper in op hun mogelijkheden, vooral op het gebied van efficiënt schalen met grotere modellen om de doorvoer en capaciteit op peil te houden. Vanuit een halfgeleiderperspectief is het ook interessant om te zien hoe Cerebras de IR-daling, elektromigratie en ESD-signoff analyseerde op een ontwerp dat twee ordes van grootte groter is dan al het andere dat de halfgeleiderindustrie ooit heeft geprobeerd. Dhiraj vertelt hoe Cerebras op elk niveau van het ontwerp (tegel, blok en volledige wafer) Ansys RedHawk-SC op meerdere CPU's gebruikte voor statische en dynamische IR-drop-signoff. RedHawk-SC werd ook gebruikt voor controles op elektrische elektromigratie en signalen. Op dezelfde manier gebruikten ze Ansys Pathfinder voor ESD-weerstand en stroomdichtheidscontroles.

Met een stuk silicium van zo'n grote omvang van 7 nm zijn de gereedschapsbeslissingen letterlijk 'maken of breken'. Het bouwen van zo'n ontwrichtend silicium vereist veel weloverwogen keuzes in het ontwikkelingsproces, en een ongeëvenaarde capaciteit is uiteraard een primaire zorg. Maar zoals de presentatie van Dhiraj duidelijk laat zien, is de verhoogde verwerkingskracht van CS-2 noodzakelijk om het groeitempo dat we zien in AI/ML-modellen te beheersen. Ongetwijfeld zullen we vandaag de dag innovaties zien die onze verbeelding te boven gaan op het gebied van AI. Net zoals het web en de cloud de technologie en zelfs de samenleving hebben veranderd, kunnen we verwachten dat de ontwikkeling van nieuwe AI-technologie onze wereld op dramatische wijze zal veranderen. Als je meer wilt weten over het Cerebras-silicium, kijk dan eens naar de presentatie van Dhiraj op het Ansys IDEAS Digital Forum op www.ansys.com/ideas.

Deel dit bericht via: Bron: https://semiwiki.com/eda/303587-neural-network-growth-requires-unprecedented-semiconductor-scaling/

Tijdstempel:

Meer van semi-wiki