IBM säger att den har kört "AI-superdator" sedan maj men valde nu att berätta för världen

IBM säger att den har kört "AI-superdator" sedan maj men valde nu att berätta för världen

Källnod: 1950471

IBM är den senaste teknikjätten att avslöja sin egen "AI-superdator", den här som består av ett gäng virtuella maskiner som körs inom IBM Cloud.

Systemet känt som Vela, som företaget hävdar har varit online sedan maj förra året, utses som IBM:s första AI-optimerade, molnbaserade superdator, skapad med syftet att utveckla och träna storskaliga AI-modeller.

Innan någon rusar iväg för att registrera sig för åtkomst, uppgav IBM att plattformen för närvarande är reserverad för användning av IBM Research-gemenskapen. Faktum är att Vela har blivit företagets "go-to-miljö" för forskare som skapar avancerade AI-funktioner sedan maj 2022, inklusive arbete med grundmodeller.

IBM uppger att man valde den här arkitekturen eftersom den ger företaget större flexibilitet att skala upp efter behov, och även möjligheten att distribuera liknande infrastruktur i alla IBM Cloud-datacenter runt om i världen.

Men Vela körs inte på någon gammal standard IBM Cloud-nodhårdvara; var och en är ett system med dubbla sockel med andra generationens Xeon-skalbara processorer konfigurerade med 2 TB DRAM och fyra 1.5 TB NVMe-flashenheter, plus åtta 3.2 GB Nvidia A80 GPU:er, den senare ansluten med NVLink och NVSwitch.

Detta gör Vela-infrastrukturen närmare den för en högpresterande beräkningsplats (HPC) än vanlig molninfrastruktur, trots IBM:s insisterande på att den tog en annan väg eftersom "traditionella superdatorer inte var designade för AI."

Det är också anmärkningsvärt att IBM valde att använda x86-processorer snarare än sina egna Power 10-chips, särskilt som dessa var utropad av Big Blue som är idealiskt lämpad för minnesintensiva arbetsbelastningar som AI-inferencing av stora modeller.

Noderna är sammankopplade med hjälp av flera 100 Gbps nätverksgränssnitt arrangerade i en Clos-struktur på två nivåer, som är utformad så att det finns flera vägar för data för att ge redundans.

Men IBM förklarar i ett blogginlägg sina skäl för att välja en molnbaserad arkitektur, som fokuserar på att minska tiden som krävs för att bygga och distribuera storskaliga AI-modeller så mycket som möjligt.

"Byggar vi vårt system på plats, med den traditionella superdatormodellen, eller bygger vi in ​​det här systemet i molnet, och bygger i huvudsak en superdator som också är ett moln?" frågar bloggen.

IBM hävdar att genom att anta det senare tillvägagångssättet har man kompromissat något med prestanda, men ökat avsevärt på produktivitet. Detta beror på möjligheten att konfigurera alla nödvändiga resurser genom mjukvara, samt att ha tillgång till tjänster tillgängliga på det bredare IBM Cloud, med exemplet att ladda datamängder till IBMs Cloud Object Store istället för att behöva bygga dedikerad lagringsinfrastruktur.

Big Blue sa också att de valde att driva alla noder i Vela som virtuella maskiner snarare än bara metall-instanser eftersom detta gjorde det enklare att tillhandahålla och omförse infrastrukturen med olika mjukvarustackar som krävs av olika AI-användare.

"VM:er skulle göra det enkelt för vårt supportteam att flexibelt skala AI-kluster dynamiskt och flytta resurser mellan arbetsbelastningar av olika slag på några minuter", förklarar IBM:s blogg.

Men företaget hävdar att det hittat ett sätt att optimera prestanda och minimera virtualiseringskostnaderna ner till mindre än 5 procent, nära barmetallprestanda.

Detta inkluderade konfigurering av barmetallvärden för virtualisering med stöd för Virtual Machine Extensions (VMX), single-rot IO virtualisering (SR-IOV) och enorma sidor, bland andra ospecificerade hårdvaru- och mjukvarukonfigurationer.

Ytterligare information om Vela-infrastrukturen finns på IBMs blogg.

IBM är inte det enda företaget som använder molnet för att vara värd för en AI-superdator. Förra året, Microsoft presenterade sin egen plattform använder Azure-infrastruktur i kombination med Nvidias GPU-acceleratorer, nätverkspaket och dess AI Enterprise-programsvit. Detta förväntades vara tillgängligt för Azure-kunder att komma åt, men ingen tidsram angavs.

Andra företag som har byggt AI-superdatorer, men som följer den traditionella infrastrukturen på plats, inkluderar meta och Tesla. ®

Tidsstämpel:

Mer från Registret