IBM zegt dat het sinds mei een 'AI-supercomputer' draait, maar ervoor koos om het nu aan de wereld te vertellen

IBM zegt dat het sinds mei een 'AI-supercomputer' draait, maar ervoor koos om het nu aan de wereld te vertellen

Bronknooppunt: 1950471

IBM is de nieuwste technologiegigant die zijn eigen "AI-supercomputer" onthult, deze bestaat uit een aantal virtuele machines die binnen IBM Cloud draaien.

Het systeem dat bekend staat als Vela, waarvan het bedrijf beweert dat het sinds mei vorig jaar online is, wordt aangeprezen als IBM's eerste AI-geoptimaliseerde, cloud-native supercomputer, gemaakt met als doel grootschalige AI-modellen te ontwikkelen en te trainen.

Voordat iemand zich haast om zich aan te melden voor toegang, verklaarde IBM dat het platform momenteel is gereserveerd voor gebruik door de IBM Research-gemeenschap. Vela is zelfs de "go-to-omgeving" van het bedrijf geworden voor onderzoekers die sinds mei 2022 geavanceerde AI-mogelijkheden creëren, inclusief werk aan basismodellen, zei het.

IBM stelt dat het voor deze architectuur heeft gekozen omdat het het bedrijf meer flexibiliteit geeft om naar behoefte op te schalen, en ook de mogelijkheid om vergelijkbare infrastructuur in te zetten in elk IBM Cloud-datacenter over de hele wereld.

Maar Vela draait niet op oude standaard IBM Cloud node-hardware; elk is een twin-socket-systeem met 2e generatie Xeon schaalbare processors geconfigureerd met 1.5 TB DRAM en vier 3.2 TB NVMe-flashdrives, plus acht 80 GB Nvidia A100 GPU's, de laatste verbonden door NVLink en NVSwitch.

Dit maakt de Vela-infrastructuur dichter bij die van een high performance compute (HPC)-site dan bij een typische cloudinfrastructuur, ondanks IBM's volharding dat het een andere weg insloeg omdat "traditionele supercomputers niet zijn ontworpen voor AI."

Het is ook opmerkelijk dat IBM ervoor koos om x86-processors te gebruiken in plaats van zijn eigen Power 10-chips, vooral omdat deze aangeprezen door Big Blue als bij uitstek geschikt voor geheugenintensieve workloads, zoals AI-inferenties op grote modellen.

De knooppunten zijn onderling verbonden met behulp van meerdere 100 Gbps netwerkinterfaces die zijn gerangschikt in een Clos-structuur met twee niveaus, die zo is ontworpen dat er meerdere paden zijn voor gegevens om redundantie te bieden.

IBM legt echter in een blogpost uit waarom het kiest voor een cloud-native architectuur, waarbij het erom gaat de tijd die nodig is om grootschalige AI-modellen te bouwen en te implementeren zo veel mogelijk te verkorten.

"Bouwen we ons systeem on-premises, met behulp van het traditionele supercomputing-model, of bouwen we dit systeem in de cloud, in wezen een supercomputer bouwen die ook een cloud is?" vraagt ​​de blog.

IBM beweert dat het door de laatste benadering toe te passen enigszins heeft ingeleverd op de prestaties, maar aanzienlijk heeft gewonnen op het gebied van productiviteit. Dit komt neer op de mogelijkheid om alle benodigde bronnen via software te configureren en toegang te hebben tot services die beschikbaar zijn in de bredere IBM Cloud, met als voorbeeld het laden van datasets in IBM's Cloud Object Store in plaats van een speciale opslaginfrastructuur te moeten bouwen.

Big Blue zei ook dat het ervoor koos om alle knooppunten in Vela te gebruiken als virtuele machines in plaats van als bare metal-instanties, omdat dit het eenvoudiger maakte om de infrastructuur in te richten en opnieuw in te richten met verschillende softwarestacks die door verschillende AI-gebruikers nodig zijn.

"VM's zouden het voor ons ondersteuningsteam gemakkelijk maken om AI-clusters dynamisch dynamisch te schalen en middelen binnen enkele minuten te verschuiven tussen verschillende soorten werklasten", legt de blog van IBM uit.

Maar het bedrijf beweert dat het een manier heeft gevonden om de prestaties te optimaliseren en de virtualisatie-overhead te minimaliseren tot minder dan 5 procent, bijna bare metal-prestaties.

Dit omvatte het configureren van de bare metal-host voor virtualisatie met ondersteuning voor Virtual Machine Extensions (VMX), single-root IO-virtualisatie (SR-IOV) en enorme pagina's, naast andere niet-gespecificeerde hardware- en softwareconfiguraties.

Meer informatie over de Vela-infrastructuur vindt u op IBM-blog.

IBM is niet het enige bedrijf dat de cloud gebruikt om een ​​AI-supercomputer te hosten. Vorig jaar Microsoft onthulde zijn eigen platform gebruikmakend van Azure-infrastructuur in combinatie met Nvidia's GPU-versnellers, netwerkkit en de AI Enterprise-softwaresuite. Dit zou naar verwachting beschikbaar zijn voor Azure-klanten, maar er is geen tijdsbestek opgegeven.

Andere bedrijven die AI-supercomputers hebben gebouwd, maar de traditionele infrastructuurroute op locatie volgen, zijn onder meer meta en Tesla​ ​

Tijdstempel:

Meer van Het register