Creșterea rețelei neuronale necesită o scalare fără precedent a semiconductorilor

Republicat de Platon

Urmaritori: 0

Adevărul este că suntem abia la începutul revoluției Inteligenței Artificiale (AI). Capacitățile AI abia acum încep să arate indicii despre ceea ce ne rezervă viitorul. De exemplu, mașinile folosesc modele mari de rețele neuronale complexe nu numai pentru a înțelege mediul lor, ci și pentru a se conduce și controla. Pentru orice aplicație trebuie să existe date de antrenament pentru a crea rețele utile. Dimensiunea atât a operațiunilor de instruire, cât și a operațiunilor de inferență crește rapid pe măsură ce date utile din lumea reală sunt încorporate în modele. Să ne uităm la creșterea modelelor din ultimii ani pentru a înțelege cum acest lucru determină nevoile de putere de procesare pentru instruire și inferență.

Într-o prezentare la Ansys 2021 Ideas Digital Forum, vicepreședintele Inginerie la Cerebras, Dhiraj Mallik, a oferit câteva informații despre creșterea modelelor de rețele neuronale. În ultimii doi ani, dimensiunea modelului a crescut de 1000X, de la BERT Base (110 MB) la GPT-3 (175 GB). Și în viziune, există modelul MSFT-1T, cu o dimensiune de 1 TB. Modelul GPT-3 – care este un subiect interesant în sine – a fost antrenat cu hardware convențional folosind 1024 GPU-uri timp de 4 luni. Este un model de procesare a limbajului natural (NLP) care utilizează majoritatea datelor text de pe internet și din alte surse. A fost dezvoltat de Open AI, iar acum este baza pentru OpenAI Codex, care este o aplicație care poate scrie cod de programare util în mai multe limbi din instrucțiunile în limbaj simplu de la utilizatori. GPT-3 poate fi folosit pentru a scrie articole scurte despre care majoritatea cititorilor nu pot spune că au fost scrise de un program AI.

După cum puteți vedea mai sus, rularea a 1024 de GPU-uri timp de 4 luni nu este fezabilă. În discursul său intitulat „Oferirea unei accelerații AP fără precedent: dincolo de legea lui Moore”, Dhiraj subliniază că progresele necesare pentru a susține acest nivel de creștere a semiconductorilor depășesc cu mult ceea ce am fost obișnuiți să vedem cu legea lui Moore. Ca răspuns la această nevoie percepută a pieței, Cerebras și-a lansat WSE-1, motorul AI la scară de napolitană în 2019 – de 56 de ori mai mare decât orice cip produs vreodată. Un an și jumătate mai târziu au anunțat WSE-2, din nou cel mai mare cip construit cu:

6 trilioane de tranzistori
850,000 de nuclee AI optimizate
40 GB RAM
Lățimea de bandă de memorie de 20 petabytes/s
Lățimea de bandă a materialului de 220 petabytes
Construit cu procesul TSMC N7
O napolitană conține 84 de matrițe, fiecare de 550 mm².

Sistemul CS-2 care încapsulează WSE-2 se potrivește modelelor AI cu 120 de trilioane de parametri. Ceea ce este și mai impresionant este că sistemele CS-2 pot fi construite în clustere de 192 de unități pentru a oferi câștiguri de performanță aproape liniare. Cerebras a dezvoltat un subsistem de memorie care dezagregează memoria și calculul pentru a oferi o scalare mai bună și un randament îmbunătățit pentru modele extrem de mari. Cerebras a dezvoltat, de asemenea, optimizări pentru dispersitatea în seturile de antrenament, ceea ce economisește timp și putere.

Prezentarea lui Dhiraj intră în mai multe detalii despre capacitățile lor, în special în zona de scalare eficientă cu modele mai mari pentru a menține debitul și capacitatea. Dintr-o perspectivă a semiconductorilor, este, de asemenea, interesant de văzut cum a analizat Cerebras căderea IR, electromigrarea și aprobarea ESD pe un design care este cu 2 ordine de mărime mai mare decât orice altceva încercat vreodată de industria semiconductoarelor. Dhiraj vorbește despre modul în care la fiecare nivel al designului – țiglă, bloc și napolitană completă – Cerebras a folosit Ansys RedHawk-SC pe mai multe procesoare pentru aprobarea IR statică și dinamică. RedHawk-SC a fost, de asemenea, utilizat pentru electromigrarea puterii și verificările electromigrării semnalului. În mod similar, au folosit Ansys Pathfinder pentru verificarea rezistenței ESD și a densității curentului.

Cu o bucată de siliciu atât de mare la 7 nm, deciziile instrumentului sunt literalmente „face sau sparge”. Construirea de siliciu atât de perturbator necesită o mulțime de alegeri foarte bine gândite în procesul de dezvoltare, iar capacitatea de neegalat este, desigur, o preocupare principală. Cu toate acestea, așa cum arată în mod clar prezentarea lui Dhiraj, nivelul de putere de procesare crescută al CS-2 este necesar pentru a gestiona rata de creștere pe care o vedem în modelele AI/ML. Fără îndoială, vom vedea inovații care depășesc imaginația noastră astăzi în domeniul AI. Așa cum web-ul și cloud-ul au modificat tehnologia și chiar societatea, ne putem aștepta ca dezvoltarea unei noi tehnologii AI să ne schimbe lumea în moduri dramatice. Dacă sunteți interesat să aflați mai multe despre siliciul Cerebras, aruncați o privire la prezentarea lui Dhiraj pe Forumul digital Ansys IDEAS la www.ansys.com/ideas.

Distribuie această postare prin: Sursa: https://semiwiki.com/eda/303587-neural-network-growth-requires-unprecedented-semiconductor-scaling/

Timestamp-ul: Octombrie 20, 2021

Timestamp-ul: August 2, 2023

Silicon Startup-uri, înarmați-vă și catalizați-vă succesul... În centrul atenției: Conferințe despre semiconductori

Cluster sursă:

Semiwiki

Nodul sursă: 1153131

Timestamp-ul: Octombrie 17, 2021

Verificare fizică 3DIC, Siemens EDA și TSMC

Cluster sursă:

Semiwiki

Nodul sursă: 1945057

Timestamp-ul: Februarie 7, 2023

Creșterea rețelei neuronale necesită o scalare fără precedent a semiconductorilor

Republicat de Platon

Mai mult de la Semiwiki

Soluții multi-senzoare pentru acționări MIPI PHY IP de calitate auto – Semiwiki

Totul este despre tranzistori - 57 de miliarde de motive pentru care Apple/TSMC îl zdrobesc

Declin abrupt în primul trimestru 1 – Semiwiki

Inferență AI optimizată pentru zonă pentru aplicații sensibile la costuri

Perspective despre tendințele DevOps în designul hardware – Semiwiki

AMAT - Flat este mai bun decât în jos - Rezistența sculei de trage compensează stocul de memorie

Noi funcții STA de la Cadence – Semiwiki

Litografie specifică aplicației: prin separare pentru 5nm și mai departe – Semiwiki

Verificare fizică 3DIC, Siemens EDA și TSMC

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont