Närvivõrgu kasv nõuab enneolematut pooljuhtide skaleerimist

Taasavaldanud Platon

järgijaid: 0

Tõde on see, et me oleme alles tehisintelligentse (AI) revolutsiooni alguses. Tehisintellekti võimalused hakkavad alles nüüd andma vihjeid tuleviku kohta. Näiteks kasutavad autod suuri keerulisi närvivõrgu mudeleid, et mitte ainult mõista oma keskkonda, vaid ka ennast juhtida ja kontrollida. Iga rakenduse jaoks peavad kasulike võrkude loomiseks olema koolitusandmed. Nii koolitus- kui ka järeldustoimingute maht kasvab kiiresti, kuna mudelitesse lisatakse kasulikke reaalmaailma andmeid. Vaatame mudelite kasvu viimastel aastatel, et mõista, kuidas see suurendab vajadusi treeningvõimsuse järele koolituse ja järelduste tegemiseks.

Ansys 2021 Ideas Digital Forumil peetud ettekandes andis Cerebrase inseneriosakonna asepresident Dhiraj Mallik mõningase ülevaate närvivõrgu mudelite kasvust. Viimase kahe aasta jooksul on mudeli suurus kasvanud 1000 korda, BERT Base'ilt (110 MB) GPT-3-le (175 GB). Ja väljas on MSFT-1T mudel, mille suurus on 1 TB. GPT-3 mudelit – mis on omaette huvitav teema – treeniti tavapärase riistvaraga, kasutades 1024 GPU-d 4 kuud. See on loomuliku keele töötlemise (NLP) mudel, mis kasutab enamikku Internetis ja muudes allikates leiduvatest tekstiandmetest. Selle töötas välja Open AI ja see on nüüd OpenAI Codexi aluseks, mis on rakendus, mis suudab kirjutada kasulikku programmeerimiskoodi mitmes keeles kasutajate lihtkeelsete juhiste põhjal. GPT-3 saab kasutada lühikeste artiklite kirjutamiseks, mille kohta enamik lugejaid ei saa aru, et need on kirjutatud AI programmiga.

Nagu ülalt näha, ei ole 1024 GPU-de käitamine 4 kuud teostatav. Oma kõnes pealkirjaga "Ennenägematu AP kiirenduse tagamine: üle Moore'i seaduse" juhib Dhiraj tähelepanu sellele, et pooljuhtide kasvu sellise taseme toetamiseks vajalikud edusammud ulatuvad palju kaugemale sellest, mida oleme Moore'i seadusega harjunud nägema. Vastuseks sellele tajutavale turuvajadusele andis Cerebras 1. aastal välja oma WSE-2019, vahvlimastaabis tehisintellekti mootori – 56 korda suurem kui ükski iial toodetud kiip. Poolteist aastat hiljem kuulutasid nad välja WSE-2, mis on taas suurim kiip, mis on ehitatud:

6 triljonit transistorit
850,000 XNUMX optimeeritud AI tuuma
40 GB RAM
20 petabaiti/s mälu ribalaius
220 petabaiti kanga ribalaius
Ehitatud TSMC N7 protsessiga
Vahvel sisaldab 84 stantsi, igaüks 550 mm².

CS-2 süsteem, mis kapseldab WSE-2, sobib 120 triljoni parameetriga tehisintellekti mudelitele. Veelgi muljetavaldavam on see, et CS-2 süsteeme saab peaaegu lineaarse jõudluse suurendamiseks ehitada 192-ühikulistesse klastritesse. Cerebras on välja töötanud mälu alamsüsteemi, mis eraldab mälu ja arvutused, et pakkuda paremat skaleerimist ja paremat läbilaskevõimet ülisuurtele mudelitele. Cerebras on välja töötanud ka treeningkomplektide hõreduse optimeerimise, mis säästab aega ja jõudu.

Dhiraji esitlus käsitleb üksikasjalikumalt nende võimalusi, eriti suuremate mudelite tõhusa skaleerimise valdkonnas, et säilitada läbilaskevõime ja võimsus. Pooljuhtide vaatenurgast on ka huvitav näha, kuidas Cerebras analüüsis IR-i langust, elektromigratsiooni ja ESD-signaali konstruktsiooni puhul, mis on 2 suurusjärku suurem kui miski muu pooljuhttööstuse katse. Dhiraj räägib, kuidas Cerebras kasutas igal kujundustasandil – plaadid, plokid ja täisplaadid – Ansys RedHawk-SC-d mitme protsessori vahel staatilise ja dünaamilise IR-i languse signaalimiseks. RedHawk-SC-d kasutati ka võimsuse elektromigratsiooni ja signaali elektromigratsiooni kontrollimiseks. Samamoodi kasutasid nad ESD takistuse ja voolutiheduse kontrollimiseks Ansys Pathfinderit.

Nii suure ränitükiga 7 nm juures on tööriistaotsused sõna otseses mõttes „tee või purusta”. Sellise häiriva räni ehitamine nõuab arendusprotsessis palju väga hästi läbimõeldud valikuid ja esmatähtis on loomulikult võrreldamatu võimsus. Ometi, nagu Dhiraji esitlus selgelt näitab, on CS-2 suurenenud töötlemisvõimsus vajalik selleks, et hallata AI/ML mudelite kasvutempot. Kahtlemata näeme tehisintellekti valdkonnas uuendusi, mis on täna väljaspool meie kujutlusvõimet. Nii nagu veeb ja pilv on muutnud tehnoloogiat ja isegi ühiskonda, võime eeldada, et uue AI-tehnoloogia arendamine muudab meie maailma dramaatiliselt. Kui teil on huvi Cerebrase räni kohta rohkem teada saada, vaadake Dhiraji ettekannet Ansys IDEAS Digital Forumis aadressil www.ansys.com/ideas.

Jaga seda postitust: Allikas: https://semiwiki.com/eda/303587-neural-network-growth-requires-unprecedented-semiconductor-scaling/

Ajatempel: Oktoober 20, 2021

Ajatempel: August 2, 2023

Silicon idufirmad, relvastage end ja katalüseerige oma edu…. Spotlight: pooljuhtide konverentsid

Allikaklaster:

Semiwiki

Allikasõlm: 1153131

Ajatempel: Oktoober 17, 2021

3DIC füüsiline kontrollimine, Siemens EDA ja TSMC

Allikaklaster:

Semiwiki

Allikasõlm: 1945057

Ajatempel: Veebruar 7, 2023

Närvivõrgu kasv nõuab enneolematut pooljuhtide skaleerimist

Taasavaldanud Platon

Veel alates Semiwiki

Autotööstuses kasutatavad MIPI PHY IP-draivid mitme sensoriga lahendused – Semiwiki

Kõik on seotud transistoridega – 57 miljardit põhjust, miks Apple/TSMC seda purustab

Järsk langus 1. aasta esimeses kvartalis – Semiwiki

Piirkonnale optimeeritud tehisintellekti järeldus kulutundlike rakenduste jaoks

Ülevaade DevOpsi riistvarakujunduse suundumustest – Semiwiki

AMAT- Flat on parem kui alla-Triista tugevus kompenseerib mälumahtu

Cadence'i uued STA funktsioonid – Semiwiki

Rakendusspetsiifiline litograafia: eraldamise kaudu 5 nm ja kaugemale – Semiwiki

3DIC füüsiline kontrollimine, Siemens EDA ja TSMC

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto