IBM sier at den har kjørt 'AI-superdatamaskin' siden mai, men valgte nå å fortelle verden

IBM sier at den har kjørt 'AI-superdatamaskin' siden mai, men valgte nå å fortelle verden

Kilde node: 1950471

IBM er den siste teknologigiganten som avduker sin egen "AI-superdatamaskin", denne sammensatt av en haug med virtuelle maskiner som kjører i IBM Cloud.

Systemet kjent som Vela, som selskapet hevder har vært online siden mai i fjor, er utpekt som IBMs første AI-optimaliserte, skybaserte superdatamaskin, laget med sikte på å utvikle og trene store AI-modeller.

Før noen skynder seg for å registrere seg for tilgang, uttalte IBM at plattformen for øyeblikket er reservert for bruk av IBM Research-fellesskapet. Faktisk har Vela blitt selskapets "go-to-miljø" for forskere som har utviklet avanserte AI-funksjoner siden mai 2022, inkludert arbeid med grunnmodeller, heter det.

IBM oppgir at de valgte denne arkitekturen fordi den gir selskapet større fleksibilitet til å skalere opp etter behov, og også muligheten til å distribuere lignende infrastruktur i et hvilket som helst IBM Cloud-datasenter rundt om i verden.

Men Vela kjører ikke på noen gammel standard IBM Cloud-node-maskinvare; hver er et twin-socket-system med andre generasjons Xeon-skalerbare prosessorer konfigurert med 2 TB DRAM, og fire 1.5 TB NVMe-flash-stasjoner, pluss åtte 3.2 GB Nvidia A80 GPUer, sistnevnte koblet sammen med NVLink og NVSwitch.

Dette gjør Vela-infrastrukturen nærmere infrastrukturen til et HPC-nettsted enn vanlig skyinfrastruktur, til tross for IBMs insistering på at den tok en annen vei ettersom "tradisjonelle superdatamaskiner ikke var designet for AI."

Det er også bemerkelsesverdig at IBM valgte å bruke x86-prosessorer i stedet for sine egne Power 10-brikker, spesielt ettersom disse var utpekt av Big Blue som ideelt egnet for minneintensive arbeidsbelastninger som AI-inferencing av store modeller.

Nodene er sammenkoblet ved hjelp av flere 100 Gbps nettverksgrensesnitt arrangert i en to-nivå Clos-struktur, som er designet slik at det er flere baner for data for å gi redundans.

Imidlertid forklarer IBM i et blogginnlegg grunnene til å velge en skybasert arkitektur, som fokuserer på å kutte ned tiden som kreves for å bygge og distribuere store AI-modeller så mye som mulig.

"Bygger vi systemet vårt på stedet ved å bruke den tradisjonelle superdatabehandlingsmodellen, eller bygger vi dette systemet inn i skyen, og bygger i hovedsak en superdatamaskin som også er en sky?" spør bloggen.

IBM hevder at ved å ta i bruk den sistnevnte tilnærmingen, har den gått på akkord med ytelsen, men oppnådd betydelig produktivitet. Dette kommer ned til muligheten til å konfigurere alle nødvendige ressurser gjennom programvare, i tillegg til å ha tilgang til tjenester tilgjengelig på den bredere IBM Cloud, med eksemplet med å laste inn datasett til IBMs Cloud Object Store i stedet for å måtte bygge dedikert lagringsinfrastruktur.

Big Blue sa også at den valgte å operere alle nodene i Vela som virtuelle maskiner i stedet for bare metall-forekomster, da dette gjorde det enklere å tilrettelegge og re-providere infrastrukturen med forskjellige programvarestabler som kreves av forskjellige AI-brukere.

"VM-er vil gjøre det enkelt for supportteamet vårt å fleksibelt skalere AI-klynger dynamisk og flytte ressurser mellom arbeidsbelastninger av ulike slag i løpet av få minutter," forklarer IBMs blogg.

Men selskapet hevder at det fant en måte å optimalisere ytelsen og minimere virtualiseringskostnadene ned til mindre enn 5 prosent, nær bare metallytelse.

Dette inkluderte konfigurering av bare metal-verten for virtualisering med støtte for Virtual Machine Extensions (VMX), IO-virtualisering med én rot (SR-IOV) og enorme sider, blant andre uspesifiserte maskinvare- og programvarekonfigurasjoner.

Ytterligere detaljer om Vela-infrastrukturen finner du på IBMs blogg.

IBM er ikke det eneste selskapet som bruker skyen til å være vert for en AI-superdatamaskin. I fjor Microsoft avduket sin egen plattform ved å bruke Azure-infrastruktur kombinert med Nvidias GPU-akseleratorer, nettverkssett og AI Enterprise-programvarepakken. Dette var forventet å være tilgjengelig for Azure-kunder, men ingen tidsramme ble spesifisert.

Andre selskaper som har bygget AI-superdatamaskiner, men som følger den tradisjonelle lokale infrastrukturruten, inkluderer Meta og Tesla. ®

Tidstempel:

Mer fra Registeret