IBM afferma di utilizzare il "supercomputer AI" da maggio, ma ha scelto ora di dirlo al mondo

IBM afferma di utilizzare il "supercomputer AI" da maggio, ma ha scelto ora di dirlo al mondo

Nodo di origine: 1950471

IBM è l'ultimo gigante tecnologico a svelare il proprio "supercomputer AI", questo composto da un gruppo di macchine virtuali in esecuzione all'interno di IBM Cloud.

Il sistema noto come Vela, che secondo la società è online dal maggio dello scorso anno, è pubblicizzato come il primo supercomputer nativo del cloud ottimizzato per l'intelligenza artificiale di IBM, creato con l'obiettivo di sviluppare e addestrare modelli di intelligenza artificiale su larga scala.

Prima che qualcuno si precipiti a registrarsi per l'accesso, IBM ha dichiarato che la piattaforma è attualmente riservata all'uso da parte della comunità IBM Research. In effetti, Vela è diventato l'ambiente di riferimento dell'azienda per i ricercatori che creano funzionalità di intelligenza artificiale avanzate dal maggio 2022, compreso il lavoro sui modelli di base, ha affermato.

IBM afferma di aver scelto questa architettura perché offre all'azienda una maggiore flessibilità per scalare secondo necessità e anche la possibilità di implementare un'infrastruttura simile in qualsiasi data center IBM Cloud in tutto il mondo.

Ma Vela non è in esecuzione su nessun vecchio nodo hardware IBM Cloud standard; ognuno è un sistema a doppio socket con processori scalabili Xeon di seconda generazione configurati con 2 TB di DRAM e quattro unità flash NVMe da 1.5 TB, oltre a otto GPU Nvidia A3.2 da 80 GB, quest'ultima collegata tramite NVLink e NVSwitch.

Ciò rende l'infrastruttura Vela più vicina a quella di un sito di calcolo ad alte prestazioni (HPC) rispetto alla tipica infrastruttura cloud, nonostante l'insistenza di IBM sul fatto che stesse prendendo una strada diversa poiché "i supercomputer tradizionali non erano progettati per l'IA".

È anche degno di nota il fatto che IBM abbia scelto di utilizzare processori x86 piuttosto che i propri chip Power 10, soprattutto perché questi erano propagandato da Big Blue come ideale per carichi di lavoro ad alta intensità di memoria come l'inferenza AI su modelli di grandi dimensioni.

I nodi sono interconnessi utilizzando più interfacce di rete da 100 Gbps disposte in una struttura Clos a due livelli, progettata in modo che vi siano più percorsi per i dati per fornire ridondanza.

Tuttavia, IBM spiega in un post sul blog le ragioni per cui ha optato per un'architettura nativa del cloud, incentrata sulla riduzione il più possibile del tempo necessario per creare e distribuire modelli di intelligenza artificiale su larga scala.

"Costruiamo il nostro sistema on-premise, utilizzando il tradizionale modello di supercalcolo, o costruiamo questo sistema nel cloud, in sostanza costruendo un supercomputer che è anche un cloud?" chiede il blog.

IBM afferma che adottando quest'ultimo approccio, ha compromesso in qualche modo le prestazioni, ma ha guadagnato notevolmente in termini di produttività. Ciò si riduce alla possibilità di configurare tutte le risorse necessarie tramite software, oltre ad avere accesso ai servizi disponibili sul più ampio IBM Cloud, con l'esempio del caricamento di set di dati su Cloud Object Store di IBM invece di dover costruire un'infrastruttura di storage dedicata.

Big Blue ha anche affermato di aver scelto di gestire tutti i nodi in Vela come macchine virtuali piuttosto che istanze bare metal in quanto ciò ha reso più semplice il provisioning e il riapprovvigionamento dell'infrastruttura con diversi stack software richiesti da diversi utenti di intelligenza artificiale.

"Le macchine virtuali semplificherebbero per il nostro team di supporto la scalabilità flessibile e dinamica dei cluster AI e lo spostamento delle risorse tra carichi di lavoro di vario tipo in pochi minuti", spiega il blog di IBM.

Ma l'azienda afferma di aver trovato un modo per ottimizzare le prestazioni e ridurre al minimo il sovraccarico di virtualizzazione fino a meno del 5%, vicino alle prestazioni bare metal.

Ciò includeva la configurazione dell'host bare metal per la virtualizzazione con supporto per Virtual Machine Extensions (VMX), virtualizzazione IO single-root (SR-IOV) e pagine enormi, tra le altre configurazioni hardware e software non specificate.

Ulteriori dettagli sull'infrastruttura Vela sono disponibili su Il blog di IBM.

IBM non è l'unica azienda che utilizza il cloud per ospitare un supercomputer AI. L'anno scorso, Microsoft ha svelato la propria piattaforma utilizzando l'infrastruttura di Azure combinata con gli acceleratori GPU di Nvidia, il kit di rete e la sua suite di software AI Enterprise. Questo doveva essere disponibile per l'accesso dei clienti di Azure, ma non è stato specificato alcun intervallo di tempo.

Altre aziende che hanno costruito supercomputer IA, ma seguendo il tradizionale percorso dell'infrastruttura locale, includono Meta ed Tesla. ®

Timestamp:

Di più da Il registro