IBM dit qu'il utilise un "supercalculateur IA" depuis mai, mais a choisi maintenant de le dire au monde

IBM dit qu'il utilise un "supercalculateur IA" depuis mai, mais a choisi maintenant de le dire au monde

Nœud source: 1950471

IBM est le dernier géant de la technologie à dévoiler son propre "supercalculateur IA", celui-ci composé d'un ensemble de machines virtuelles fonctionnant dans IBM Cloud.

Le système connu sous le nom de Vela, qui, selon la société, est en ligne depuis mai de l'année dernière, est présenté comme le premier supercalculateur optimisé pour l'IA et natif du cloud d'IBM, créé dans le but de développer et de former des modèles d'IA à grande échelle.

Avant que quiconque ne se précipite pour s'inscrire pour y accéder, IBM a déclaré que la plate-forme est actuellement réservée à la communauté IBM Research. En fait, Vela est devenu «l'environnement de référence» de l'entreprise pour les chercheurs créant des capacités d'IA avancées depuis mai 2022, y compris des travaux sur des modèles de base, a-t-il déclaré.

IBM déclare avoir choisi cette architecture car elle donne à l'entreprise une plus grande flexibilité pour évoluer selon les besoins, ainsi que la possibilité de déployer une infrastructure similaire dans n'importe quel centre de données IBM Cloud dans le monde.

Mais Vela ne s'exécute sur aucun ancien matériel de nœud IBM Cloud standard ; chacun est un système à double socket avec des processeurs évolutifs Xeon de 2e génération configurés avec 1.5 To de DRAM et quatre lecteurs flash NVMe de 3.2 To, plus huit GPU Nvidia A80 de 100 Go, ces derniers étant connectés par NVLink et NVSwitch.

Cela rend l'infrastructure Vela plus proche de celle d'un site de calcul haute performance (HPC) que d'une infrastructure cloud typique, malgré l'insistance d'IBM sur le fait qu'elle empruntait une voie différente car "les superordinateurs traditionnels n'ont pas été conçus pour l'IA".

Il est également à noter qu'IBM a choisi d'utiliser des processeurs x86 plutôt que ses propres puces Power 10, d'autant plus qu'elles étaient vanté par Big Blue comme étant parfaitement adapté aux charges de travail gourmandes en mémoire telles que l'inférence d'IA de grands modèles.

Les nœuds sont interconnectés à l'aide de plusieurs interfaces réseau de 100 Gbit/s disposées dans une structure Clos à deux niveaux, qui est conçue de sorte qu'il existe plusieurs chemins pour les données afin d'assurer la redondance.

Cependant, IBM explique dans un article de blog ses raisons d'opter pour une architecture native du cloud, qui visent à réduire autant que possible le temps nécessaire pour créer et déployer des modèles d'IA à grande échelle.

"Construisons-nous notre système sur site, en utilisant le modèle de supercalcul traditionnel, ou construisons-nous ce système dans le cloud, en construisant essentiellement un supercalculateur qui est également un cloud ?" demande le blog.

IBM affirme qu'en adoptant cette dernière approche, il a quelque peu compromis les performances, mais a considérablement gagné en productivité. Cela se résume à la possibilité de configurer toutes les ressources nécessaires via un logiciel, ainsi qu'à l'accès aux services disponibles sur le Cloud IBM plus large, avec l'exemple du chargement d'ensembles de données sur le Cloud Object Store d'IBM au lieu d'avoir à créer une infrastructure de stockage dédiée.

Big Blue a également déclaré avoir choisi d'exploiter tous les nœuds de Vela en tant que machines virtuelles plutôt qu'en tant qu'instances nues, car cela simplifiait l'approvisionnement et le réapprovisionnement de l'infrastructure avec différentes piles logicielles requises par différents utilisateurs d'IA.

"Les machines virtuelles permettraient à notre équipe d'assistance de faire évoluer de manière flexible les clusters d'IA de manière dynamique et de déplacer les ressources entre les charges de travail de différents types en quelques minutes", explique le blog d'IBM.

Mais la société affirme avoir trouvé un moyen d'optimiser les performances et de réduire les frais généraux de virtualisation à moins de 5 %, ce qui est proche des performances sur système nu.

Cela comprenait la configuration de l'hôte bare metal pour la virtualisation avec prise en charge des extensions de machine virtuelle (VMX), de la virtualisation d'E/S à racine unique (SR-IOV) et des pages volumineuses, entre autres configurations matérielles et logicielles non spécifiées.

De plus amples détails sur l'infrastructure Vela peuvent être trouvés sur Le blog d'IBM.

IBM n'est pas la seule entreprise à utiliser le cloud pour héberger un supercalculateur d'IA. L'année dernière, Microsoft a dévoilé sa propre plateforme en utilisant l'infrastructure Azure combinée aux accélérateurs GPU, au kit réseau et à sa suite logicielle AI Enterprise de Nvidia. Cela devait être disponible pour les clients Azure, mais aucun délai n'a été spécifié.

D'autres entreprises qui ont construit des supercalculateurs d'IA, mais en suivant la voie traditionnelle de l'infrastructure sur site, incluent Meta ainsi que Tesla. ®

Horodatage:

Plus de Le registre