Mälu ümbermõtestamine

Mälu ümbermõtestamine

Allikasõlm: 3080814

Eksperdid laua taga: Semiconductor Engineering istusid maha, et rääkida mälu arenguteest üha heterogeensemates süsteemides, koos kontserni direktori tootejuhtimisega Frank Ferro Cadence; Steven Woo, kaaslane ja silmapaistev leiutaja Rambus; Jongsin Yun, mälutehnoloog aadressil Siemens EDA; Randy White, mälulahenduste programmijuht Klaviatuur; ja Frank Schirrmeister, lahenduste ja äriarenduse asepresident Arteris. Järgnevalt on väljavõtted sellest vestlusest. Selle arutelu esimese osa leiate siin.

[L-R]: Frank Ferro, Cadence; Steven Woo, Rambus; Jongsin Yun, Siemens EDA; Randy White, Keysight; ja Frank Schirrmeister, Arteris.

[L-R]: Frank Ferro, Cadence; Steven Woo, Rambus; Jongsin Yun, Siemens EDA; Randy White, Keysight; ja Frank Schirrmeister, Arteris

SE: Kuna me võitleme AI/ML-i ja energiavajadustega, siis millised konfiguratsioonid tuleb ümber mõelda? Kas näeme nihet Von Neumanni arhitektuurist eemale?

Woo: Süsteemiarhitektuuri osas toimub tööstusharus hargnemine. Traditsioonilised rakendused, mis on domineerivad tööhobused, mida me x86-põhistes serverites pilves käivitame, ei kao kuhugi. Aastakümneid on loodud ja arendatud tarkvara, mis tugineb sellele arhitektuurile, et see toimiks hästi. Seevastu AI/ML on uus klass. Inimesed on arhitektuurid ümber mõelnud ja ehitanud väga domeenispetsiifilisi protsessoreid. Näeme, et umbes kaks kolmandikku energiast kulutatakse lihtsalt andmete liigutamisele protsessori ja HBM-seadme vahel, samas kui ainult umbes kolmandik kulub DRAM-i tuumade bittide tegelikule juurdepääsule. Andmete liikumine on nüüd palju keerulisem ja kallim. Me ei kavatse mälust lahti saada. Meil on seda vaja, sest andmestikud muutuvad üha suuremaks. Seega on küsimus: "Mis on õige edasiminek?" Virnastamise üle on palju arutatud. Kui me võtaksime selle mälu ja paneksime selle otse protsessori peale, teeb see teie jaoks kaks asja. Esiteks piirab ribalaiust tänapäeval kaldapiir või kiibi perimeeter. Sinna lähevad I/O-d. Kui aga asetaksite selle otse protsessori peale, saate nüüd kasutada kogu kiibi pindala hajutatud ühenduste jaoks ja kasutada rohkem mälu enda ribalaiust ja see saab otse alla laadida protsessor. Lingid muutuvad palju lühemaks ja energiatõhusus tõuseb tõenäoliselt 5-6 korda. Teiseks suureneb mitme täisarvu teguri võrra ka ribalaiuse hulk, mille saate tänu sellele, et mäluga ühendatakse rohkem ala massiivi. Nende kahe asja koos tegemine võib anda suurema ribalaiuse ja muuta selle energiatõhusamaks. Tööstus areneb vastavalt vajadustele ja see on kindlasti üks viis, kuidas me näeme, et mälusüsteemid hakkavad tulevikus arenema, et muutuda energiatõhusamaks ja pakkuda rohkem ribalaiust.

Raud: Kui ma 2016. aasta paiku esimest korda HBM-iga töötama hakkasin, küsisid mõned edasijõudnumad kliendid, kas seda saab virnastada. Nad on juba mõnda aega otsinud, kuidas DRAM-i peale virnastada, kuna sellel on selged eelised. Füüsilisest kihist muutub PHY põhimõtteliselt tühiseks, mis säästab palju võimsust ja efektiivsust. Kuid nüüd on teil mitme 100 W protsessor, millel on peal mälu. Mälu ei talu kuumust. See on ilmselt soojusahela nõrgim lüli, mis tekitab uue väljakutse. Kasu on küll, aga nad peavad veel välja mõtlema, kuidas termidega toime tulla. Nüüd on rohkem stiimulit seda tüüpi arhitektuuri edasiliikumiseks, sest see säästab teid üldiselt jõudluse ja võimsuse osas ning parandab teie arvutuste tõhusust. Kuid on mõned füüsilise disaini väljakutsed, millega tuleb tegeleda. Nagu Steve ütles, näeme välja tulemas igasuguseid arhitektuure. Olen täiesti nõus, et GPU/CPU arhitektuurid ei kao kuhugi, need jäävad endiselt domineerima. Samal ajal püüab iga planeedi ettevõte oma tehisintellekti tegemiseks parema hiirelõksu välja mõelda. Näeme kiibil asuvat SRAM-i ja suure ribalaiusega mälu kombinatsioone. LPDDR on tänapäeval üsna palju pead tõstnud, kuidas LPDDR-i andmekeskuses võimsuse tõttu ära kasutada. Oleme isegi näinud, et GDDR-i kasutatakse mõnes AI järeldusrakenduses, aga ka kõigis vanades mälusüsteemides. Nüüd püüavad nad võimalikult palju DDR5-sid jalajäljele pigistada. Olen näinud kõiki arhitektuure, mida võite mõelda, olgu see siis DDR, HBM, GDDR või mõni muu. See sõltub teie protsessori tuumast, milline on teie üldine lisandväärtus ja kuidas saate oma konkreetsest arhitektuurist läbi murda. Sellega kaasas olev mälusüsteem, et saaksite oma protsessorit ja mäluarhitektuuri kujundada olenevalt sellest, mis on saadaval.

Ja a: Teine probleem on volatiilsus. Kui tehisintellekt peab tegelema näiteks IoT-põhise tehisintellekti käitamise vahelise toiteintervalliga, siis vajame palju välja- ja sisselülitamist ning kogu see teave tehisintellekti koolituse jaoks peab ikka ja jälle pöörlema. Kui meil on teatud tüüpi lahendusi, kus saame need raskused kiibile salvestada, et me ei peaks alati sama kaalu jaoks edasi-tagasi liikuma, säästame palju energiat, eriti asjade Interneti-põhise AI puhul. Nende energiavajaduste rahuldamiseks on veel üks lahendus.

Schirrmeister: Minu arvates on NoC vaatenurgast põnev see, et peate optimeerima neid teid, alates protsessorist, mis läbib NoC-d, pääsedes juurde mäluliidesele kontrolleriga, mis võib läbida UCIe, et edastada kiibile teisele kiibile, milles on seejärel mälu. seda. Asi pole selles, et Von Neumanni arhitektuurid on surnud. Kuid praegu on palju variatsioone, olenevalt töökoormusest, mida soovite arvutada. Neid tuleb käsitleda mälu kontekstis ja mälu on vaid üks aspekt. Kust te andmepiirkonnast andmed võtate, kuidas see selles DRAM-is on paigutatud? Töötame läbi kõik need asjad, näiteks mälude jõudluse analüüsi ja seejärel süsteemi arhitektuuri optimeerimise. See õhutab uute arhitektuuride jaoks palju uuendusi, millele ma ülikoolis Von Neumanni tundma õppides ei mõelnudki. Äärmiselt teises otsas on teil sellised asjad nagu võrgusilmad. Nende vahel on palju rohkem arhitektuure, mida tuleb arvesse võtta ja see on tingitud mälu ribalaiusest, arvutusvõimalustest ja muust, mis ei kasva samas tempos.

Valge: Suundumuses on hajutatud arvutus või hajutatud andmetöötlus, mis tähendab, et arhitekti käsutuses peab olema rohkem tööriistu. Mälu hierarhia on laienenud. Kaasas on semantika, aga ka CXL ja erinevad hübriidmälud, mis on saadaval välgu ja DRAM-i jaoks. Andmekeskuse paralleelne rakendus on autotööstus. Autotööstuses oli see andur alati arvutatud ECU-dega (elektroonilised juhtplokid). Olen lummatud sellest, kuidas see andmekeskuseks on arenenud. Kiiresti edasi ja täna oleme jaotanud arvutussõlmed, mida nimetatakse domeenikontrolleriteks. See on sama asi. See püüab käsitleda seda, et võib-olla pole võimsus nii suur asi, kuna arvutite skaala pole nii suur, kuid latentsus on autotööstuses kindlasti suur probleem. ADAS vajab ülisuurt ribalaiust ja teil on erinevad kompromissid. Ja siis on teil rohkem mehaanilisi andureid, kuid andmekeskuses on sarnased piirangud. Teil on külmhoidla, mis ei pea olema madala latentsusajaga, ja seejärel on teil muid suure ribalaiusega rakendusi. Põnev on näha, kui palju on arenenud arhitekti tööriistad ja võimalused. Tööstus on reageerimisel teinud väga head tööd ja me kõik pakume erinevaid lahendusi, mis turule sisenevad.

SE: Kuidas on mälu kujundamise tööriistad arenenud?

Schirrmeister: Kui ma 90ndatel oma esimese paari kiibiga alustasin, oli enim kasutatud süsteemitööriist Excel. Sellest ajast peale olen alati lootnud, et see võib ühel hetkel katkeda asjade, mida me süsteemi tasemel teeme, mälu, ribalaiuse analüüsi ja nii edasi. See mõjutas minu meeskondi üsna palju. Tol ajal oli see väga arenenud värk. Kuid Randy sõnul tuleb nüüd teatud keerulisi asju simuleerida sellisel täpsustasemel, mis varem polnud ilma arvutuseta võimalik. Näiteks võib DRAM-i juurdepääsu teatud latentsusaja eeldamine põhjustada halbu arhitektuuriotsuseid ja potentsiaalselt valesti kujundada andmeedastusarhitektuure kiibil. Ka tagakülg on tõsi. Kui eeldate alati halvimat juhust, siis kujundate arhitektuuri üle. Kui tööriistad teostavad DRAM-i ja jõudlusanalüüsi ning kui kontrollerite jaoks on saadaval õiged mudelid, siis saab arhitekt seda kõike simuleerida – see on põnev keskkond. Minu lootus 90ndatest, et Excel võib ühel hetkel puruneda. süsteemitaseme tööriist võib tegelikult teoks saada, sest teatud dünaamilisi mõjusid, mida te enam Excelis teha ei saa, kuna peate neid simuleerima – eriti kui kasutate PHY-omadustega liidese muutumist ja seejärel linkite kihi. omadused, nagu kogu kontrollimine, kas kõik oli õige, ja andmete võimalik uuesti saatmine. Kui neid simulatsioone ei tehta, on arhitektuur ebaoptimaalne.

Raud: Enamiku hindamiste esimene samm on anda neile mälutesti, et hakata uurima DRAM-i tõhusust. See on tohutu samm, tehes isegi nii lihtsaid asju nagu kohalike tööriistade käivitamine DRAM-i simulatsiooni tegemiseks, kuid seejärel täiemahuliste simulatsioonide käivitamine. Näeme rohkem kliente, kes soovivad seda tüüpi simulatsiooni. Veendumine, et teie DRAM-i tõhusus on 90ndatel kõrgel tõusnud, on iga hindamise väga oluline esimene samm.

Woo: Üks osa sellest, miks näete kogu süsteemi simulatsioonitööriistade kasvu, on see, et DRAM-id on muutunud palju keerulisemaks. Lihtsate tööriistade (nt Exceli) abil on praegu väga raske mõne sellise keeruka töökoormuse puhul isegi ribal olla. Kui vaatate 90ndate DRAM-i andmelehte, olid need andmelehed umbes 40 lehekülge. Nüüd on neid sadu lehekülgi. See räägib lihtsalt seadme keerukusest, et saada välja suured ribalaiused. See on seotud tõsiasjaga, et mälu mõjutab nii süsteemikulusid kui ka protsessori jõudlusega seotud ribalaiust ja latentsust. See on ka suur jõud, nii et peate nüüd simuleerima palju üksikasjalikumalt. Tööriistade voolu osas mõistavad süsteemiarhitektid, et mälu on tohutu jõud. Seega peavad tööriistad olema keerukamad ja need peavad olema väga hästi liidestud teiste tööriistadega, et süsteemiarhitekt saaks toimuvast parima globaalse ülevaate – eriti seoses sellega, kuidas mälu süsteemi mõjutab.

Ja a: AI ajastusse liikudes kasutatakse palju mitmetuumalisi süsteeme, kuid me ei tea, millised andmed kuhu lähevad. See läheb ka kiibiga paralleelsemalt. Mälu maht on palju suurem. Kui kasutame ChatGPT-tüüpi AI-d, siis mudelite andmetöötlus nõuab umbes 350 MB andmemahtu, mis on lihtsalt kaalu jaoks tohutult palju andmeid ja tegelik sisend/väljund on palju suurem. Nõutava andmemahu suurenemine tähendab, et meil on palju tõenäosuslikke mõjusid, mida me pole varem näinud. See on äärmiselt keeruline test, et näha kõiki selle suure mälumahuga seotud vigu. Ja ECC-d kasutatakse kõikjal, isegi SRAM-is, mis traditsiooniliselt ECC-d ei kasutanud, kuid nüüd on see suurimate süsteemide jaoks väga levinud. Selle kõige testimine on väga keeruline ja seda peavad toetama EDA lahendused, et testida kõiki neid erinevaid tingimusi.

SE: Milliste väljakutsetega seisavad insenerimeeskonnad igapäevaselt silmitsi?

Valge: Igal päeval leiate mind laborist. Käärin käised üles ja mul on käed määrdunud, juhtmed torkimas, jootmine ja mida kõike veel. Ma mõtlen palju ränijärgsele valideerimisele. Rääkisime varajasest simulatsioonist ja sisselülitatud tööriistadest – BiST-ist ja muust sellisest. Päeva lõpus, enne tarnimist, tahame teha mingisuguse süsteemi valideerimise või seadmetaseme testid. Rääkisime, kuidas mälumüürist üle saada. Me otsime mälu, HBM-i ja selliseid asju koos. Kui vaatame pakenditehnoloogia arengut, siis alustasime plii sisaldavatest pakenditest. Need ei olnud signaali terviklikkuse jaoks eriti head. Aastakümneid hiljem läksime üle optimeeritud signaali terviklikkusele, nagu kuulvõre massiivid (BGA). Me ei pääsenud sellele juurde, mis tähendab, et te ei saanud seda testida. Nii leidsimegi selle kontseptsiooni, mida nimetatakse seadme interposeriks – BGA interposeriks – ja see võimaldas meil ühendada spetsiaalse seadmega, mis suunab signaale välja. Seejärel saime selle katseseadmetega ühendada. Kiiresti tänasesse päeva ja nüüd on meil HBM ja chipletid. Kuidas kinnitada oma armatuur räni vahekihi vahele? Me ei saa ja see on võitlus. See on väljakutse, mis hoiab mind öösel üleval. Kuidas me teostame rikkeanalüüsi kohapeal OEM-i või süsteemikliendiga, kui nad ei saavuta 90% efektiivsust. Lingis on rohkem vigu, neid ei saa korralikult lähtestada ja koolitus ei tööta. Kas see on süsteemi terviklikkuse probleem?

Schirrmeister: Kas te ei teeks seda pigem kodust virtuaalse liidesega kui laborisse kõndides? Kas vastus pole rohkem analüütika, mida te kiibile ehitate? Kiipide abil integreerime kõike veelgi. Jootekolbi viimine sinna ei ole tegelikult võimalik, seega peab olema võimalus kiibipõhiseks analüüsiks. Meil on sama probleem NoC-ga. Inimesed vaatavad NoC-d ja saadate andmed ja need on kadunud. Meil on vaja sinna lisada analüütikat, et inimesed saaksid silumist teha, ja see laieneb ka tootmistasandile, et saaksite lõpuks kodus töötada ja teha seda kõike kiibi analüüsi põhjal.

Raud: Eriti suure ribalaiusega mälu puhul ei pääse te sinna füüsiliselt sisse. Kui anname PHY litsentsi, on meil ka toode, mis sobib sellega, et saaksite igale neist 1,024 bitist silma peal hoida. Saate alustada DRAM-i lugemist ja kirjutamist tööriistast, nii et te ei pea sinna füüsiliselt sisenema. Mulle meeldib interposeri idee. Toome testimise ajal interposerist välja mõned tihvtid, mida te süsteemis teha ei saa. Nendesse 3D-süsteemidesse sisenemine on tõesti väljakutse. Isegi disainitööriistade voo vaatevinklist tundub, et enamik ettevõtteid teeb paljude nende 2.5D-tööriistade puhul oma individuaalse voo. Hakkame koostama standardsemat viisi 2.5D-süsteemi loomiseks, lähtudes signaali terviklikkusest, võimsusest ja kogu voolust.

Valge: Asjade edenedes loodan, et suudame säilitada sama täpsuse. Olen UCIe vormiteguri järgimise rühmas. Ma uurin, kuidas iseloomustada tuntud head stantsi, kuldset stantsi. Lõpuks võtab see palju rohkem aega, kuid leiame õnneliku keskkonna vajaliku testimise jõudluse ja täpsuse ning sisseehitatud paindlikkuse vahel.

Schirrmeister: Kui ma vaatan kiibikke ja nende kasutuselevõttu avatumas tootmiskeskkonnas, on testimine üks suuremaid väljakutseid selle õigeks muutmisel. Kui ma olen suur ettevõte ja kontrollin selle kõiki külgi, siis saan asju asjakohaselt piirata, et testimine ja muu selline oleks teostatav. Kui ma tahan minna UCIe loosungile, et UCI on PCI-st vaid ühe tähe kaugusel, ja kujutan ette tulevikku, kus UCIe koost muutub tootmise vaatenurgast tänapäeval nagu PCI-pesad arvutis, siis on selle testimise aspektid tõesti väljakutseid pakkuv. Peame leidma lahenduse. Tööd on palju.

seotud artiklid
Mälu tulevik (Ümardatava 1. osa)
Alates katsetest lahendada soojus- ja toiteprobleeme kuni CXL-i ja UCIe rollideni pakub tulevik mälu jaoks mitmeid võimalusi.

Ajatempel:

Veel alates Pooltehnika