Meta skal distribuere tilpassede AI-brikker sammen med AMD, Nvidia GPUer

Publisert av Platon

Følgere: 0

Etter år med utvikling kan Meta endelig rulle ut sine hjemmelagde AI-akseleratorer på en meningsfull måte i år.

Facebook-imperiet bekreftet sitt ønske om å supplere distribusjonene av Nvidia H100 og AMD MI300X GPUer med sin Meta Training Inference Accelerator (MTIA) familie av brikker denne uken. Spesielt vil Meta distribuere en inferensoptimalisert prosessor, angivelig kodenavnet Artemis, basert på Silicon Valley-gigantens førstegenerasjonsdeler ertet i fjor.

"Vi er begeistret over fremgangen vi har gjort med vår interne silisiuminnsats med MTIA og er på vei til å begynne å distribuere vår inferensvariant i produksjonen i 2024," sa en talsperson for Meta. Registeret på torsdag.

"Vi ser at våre internt utviklede akseleratorer er svært komplementære til kommersielt tilgjengelige GPUer når det gjelder å levere den optimale blandingen av ytelse og effektivitet på metaspesifikke arbeidsbelastninger," fortsatte representanten. Detaljer? Nei. Talsmannen fortalte oss: "Vi ser frem til å dele flere oppdateringer om våre fremtidige MTIA-planer senere i år."

Vi tar det som at den andre generasjons inferensfokuserte brikken rulles ut bredt, etter en førstegenerasjons laboratorieversjon for konklusjon, og vi kan finne ut senere om deler som primært er ment for trening eller trening og inferens.

Meta har blitt en av Nvidia og AMDs beste kunder ettersom distribusjonen av AI-arbeidsmengder har vokst, noe som øker behovet og bruken av spesialisert silisium for å få maskinlæringsprogramvaren til å kjøre så raskt som mulig. Derfor er Instagram-gigantens beslutning om å utvikle sine egne tilpassede prosessorer ikke så overraskende.

Faktisk er mega-korpset, på forsiden av det, relativt sent til den tilpassede AI-silisiumfesten når det gjelder implementering i den virkelige verden. Amazon og Google har brukt hjemmelagde komponenter for å akselerere interne maskinlæringssystemer, for eksempel anbefalingsmodeller og kunde-ML-kode i noen år. I mellomtiden avslørte Microsoft sine hjemmelagde akseleratorer i fjor.

Men utover det faktum at Meta ruller ut en MTIA-inferensbrikke i stor skala, har ikke det sosiale nettverket avslørt sin nøyaktige arkitektur eller hvilke arbeidsbelastninger det reserverer for internt silisium og hvilke det laster av til AMD og Nvidias GPUer.

Det er sannsynlig at Meta vil kjøre etablerte modeller på sine tilpassede ASIC-er for å frigjøre GPU-ressurser for mer dynamiske eller utviklende applikasjoner. Vi har sett Meta gå denne ruten før med tilpassede akseleratorer designet for å laste ned data og beregne intensive videoarbeidsbelastninger.

Når det gjelder den underliggende designen, forteller bransjeovervåkerne ved SemiAnalysis oss at den nye brikken er tett basert på arkitekturen i Metas førstegenerasjonsdeler.

Byggestener

Lansert tidlig i 2023 etter tre års utvikling, Metas MTIA v1-deler, som våre venner på Neste plattform så på i fjor vår, ble designet spesielt med tanke på dyplæringsmodeller.

Den første generasjonsbrikken ble bygget rundt en RISC-V CPU-klynge og utviklet ved hjelp av TSMCs 7nm-prosess. Under panseret brukte komponenten en åtte ganger åtte matrise av prosesseringselementer hver utstyrt med to RV CPU-kjerner, hvorav den ene er utstyrt med vektormatematikk-utvidelser. Disse kjernene mates fra en sjenerøs 128 MB SRAM på brikken og opptil 128 GB LPDDR5-minne.

Som Meta hevdet i fjor, kjørte brikken på 800 MHz og toppet med 102.4 billioner operasjoner per sekund med INT8-ytelse eller 51.2 teraFLOPS ved halv presisjon (FP16). Til sammenligning er Nvidias H100 i stand til nesten fire petaFLOPS med sparsom FP8-ytelse. Selv om ikke på langt nær så kraftig som verken Nvidia eller AMDs GPUer, hadde brikken én stor fordel: Strømforbruk. Selve brikken hadde en termisk designeffekt på bare 25 watt.

Ifølge Semi -analyse, Metas siste brikke kan skryte av forbedrede kjerner og bytter LPDDR5 for minne med høy båndbredde pakket ved hjelp av TSMCs chip-on-wafer-on-substrat (CoWoS)-teknologi.

En annen bemerkelsesverdig forskjell er at Metas andre generasjonsbrikke faktisk vil se utbredt distribusjon på tvers av datasenterinfrastrukturen. Ifølge Facebook-titanen, mens førstegenerasjonsdelen ble brukt til å kjøre produksjonsannonseringsmodeller, forlot den aldri laboratoriet.

Jager kunstig generell intelligens

Tilpassede deler til side, har Facebook- og Instagram-forelderen dumpet milliarder av dollar på GPUer de siste årene for å akselerere alle slags oppgaver som er dårlig egnet til konvensjonelle CPU-plattformer. Fremveksten av store språkmodeller, som GPT-4 og Metas egen Llama 2, har imidlertid endret landskapet og drevet utplasseringen av massive GPU-klynger.

I den skalaen Meta opererer, har disse trendene nødvendiggjort drastiske endringer i infrastrukturen, inkludert redesign av flere datasentre for å støtte de enorme kraft- og kjølekravene knyttet til store AI-distribusjoner.

Og Metas utplasseringer kommer bare til å bli større i løpet av de neste månedene ettersom selskapet skifter fokus fra metaversen til utvikling av kunstig generell intelligens. Angivelig vil arbeid utført med AI bidra til å danne metaverset eller noe sånt.

Ifølge administrerende direktør Mark Zuckerberg, planlegger Meta å distribuere så mange som 350,000 100 Nvidia HXNUMX-er bare i år.

Biz kunngjorde også planer om å distribuere AMD-er nylig lansert MI300X GPUer i sine datasentre. Zuckerberg hevdet at selskapet hans ville avslutte året med tilsvarende datakraft på 600,000 100 HXNUMX-er. Så det er klart at Metas MTIA-brikker ikke vil erstatte GPU-er med det første. ®