IBM siger, at den har kørt 'AI-supercomputer' siden maj, men valgte nu at fortælle verden

IBM siger, at den har kørt 'AI-supercomputer' siden maj, men valgte nu at fortælle verden

Kildeknude: 1950471

IBM er den seneste teknologigigant, der afslører sin egen "AI-supercomputer", denne sammensat af en masse virtuelle maskiner, der kører i IBM Cloud.

Systemet kendt som Vela, som selskabet hævder har været online siden maj sidste år, udråbes som IBMs første AI-optimerede, cloud-native supercomputer, skabt med det formål at udvikle og træne store AI-modeller.

Før nogen skynder sig af sted for at tilmelde sig adgang, udtalte IBM, at platformen i øjeblikket er reserveret til brug af IBM Research-fællesskabet. Faktisk er Vela blevet virksomhedens "go-to-miljø" for forskere, der har skabt avancerede AI-kapaciteter siden maj 2022, herunder arbejde med fundamentmodeller, hedder det.

IBM oplyser, at det valgte denne arkitektur, fordi det giver virksomheden større fleksibilitet til at skalere op efter behov, og også muligheden for at implementere lignende infrastruktur i ethvert IBM Cloud-datacenter rundt om i verden.

Men Vela kører ikke på nogen gammel standard IBM Cloud-node-hardware; hver er et twin-socket system med 2nd Gen Xeon Scalable-processorer konfigureret med 1.5 TB DRAM og fire 3.2 TB NVMe-flashdrev, plus otte 80 GB Nvidia A100 GPU'er, sidstnævnte forbundet med NVLink og NVSwitch.

Dette gør Vela-infrastrukturen tættere på den for et højtydende computersted (HPC) end typisk cloud-infrastruktur, på trods af IBMs insisteren på, at den tog en anden vej, da "traditionelle supercomputere ikke var designet til AI."

Det er også bemærkelsesværdigt, at IBM valgte at bruge x86-processorer frem for sine egne Power 10-chips, især da disse var udråbt af Big Blue som værende ideel til hukommelsesintensive arbejdsbelastninger såsom AI-inferencing af store modeller.

Noderne er forbundet med hinanden ved hjælp af flere 100 Gbps netværksgrænseflader arrangeret i en Clos-struktur på to niveauer, som er designet, så der er flere stier til data for at give redundans.

IBM forklarer dog i et blogindlæg sine grunde til at vælge en cloud-native arkitektur, som fokuserer på at skære ned på den tid, der kræves til at bygge og implementere store AI-modeller så meget som muligt.

"Bygger vi vores system på stedet ved hjælp af den traditionelle supercomputing-model, eller bygger vi dette system ind i skyen, og bygger i bund og grund en supercomputer, der også er en sky?" spørger bloggen.

IBM hævder, at den ved at anvende den sidstnævnte tilgang har gået en del på kompromis med ydeevnen, men opnået betydeligt med produktiviteten. Dette kommer ned til muligheden for at konfigurere alle de nødvendige ressourcer gennem software, samt at have adgang til tjenester tilgængelige på den bredere IBM Cloud, med eksemplet med at indlæse datasæt på IBMs Cloud Object Store i stedet for at skulle bygge dedikeret storage-infrastruktur.

Big Blue sagde også, at det valgte at betjene alle noderne i Vela som virtuelle maskiner i stedet for bare metal-instanser, da dette gjorde det nemmere at levere og re-provisionere infrastrukturen med forskellige softwarestakke, der kræves af forskellige AI-brugere.

"VM'er ville gøre det nemt for vores supportteam fleksibelt at skalere AI-klynger dynamisk og flytte ressourcer mellem arbejdsbelastninger af forskellig art i løbet af få minutter," forklarer IBMs blog.

Men virksomheden hævder, at det fandt en måde at optimere ydeevnen og minimere virtualiseringsomkostningerne ned til mindre end 5 procent, tæt på bar metal-ydeevne.

Dette omfattede konfiguration af bare metal-værten til virtualisering med understøttelse af Virtual Machine Extensions (VMX), single-root IO-virtualisering (SR-IOV) og enorme sider, blandt andre uspecificerede hardware- og softwarekonfigurationer.

Yderligere detaljer om Vela-infrastrukturen kan findes på IBM's blog.

IBM er ikke den eneste virksomhed, der bruger skyen til at være vært for en AI-supercomputer. Sidste år Microsoft afslørede sin egen platform ved hjælp af Azure-infrastruktur kombineret med Nvidias GPU-acceleratorer, netværkssæt og dets AI Enterprise-softwarepakke. Dette forventedes at være tilgængeligt for Azure-kunder at få adgang til, men der blev ikke angivet nogen tidsramme.

Andre virksomheder, der har bygget AI-supercomputere, men som følger den traditionelle lokale infrastrukturrute, omfatter Meta , Tesla. ®

Tidsstempel:

Mere fra Registret