IBM dice que ha estado ejecutando una 'supercomputadora de IA' desde mayo, pero eligió ahora decírselo al mundo

IBM dice que ha estado ejecutando una 'supercomputadora de IA' desde mayo, pero eligió ahora decírselo al mundo

Nodo de origen: 1950471

IBM es el último gigante tecnológico en presentar su propia "supercomputadora de IA", compuesta por un grupo de máquinas virtuales que se ejecutan dentro de IBM Cloud.

El sistema conocido como Vela, que según la compañía ha estado en línea desde mayo del año pasado, se promociona como la primera supercomputadora nativa de la nube optimizada para IA de IBM, creada con el objetivo de desarrollar y entrenar modelos de IA a gran escala.

Antes de que alguien se apresure a registrarse para obtener acceso, IBM declaró que la plataforma está actualmente reservada para el uso de la comunidad de IBM Research. De hecho, Vela se ha convertido en el "entorno de referencia" de la compañía para los investigadores que crean capacidades avanzadas de inteligencia artificial desde mayo de 2022, incluido el trabajo en modelos básicos, dijo.

IBM afirma que eligió esta arquitectura porque le brinda a la empresa una mayor flexibilidad para escalar según sea necesario, y también la capacidad de implementar una infraestructura similar en cualquier centro de datos de IBM Cloud en todo el mundo.

Pero Vela no se ejecuta en ningún hardware de nodo de IBM Cloud estándar antiguo; cada uno es un sistema de dos zócalos con procesadores escalables Xeon de segunda generación configurados con 2 TB de DRAM y cuatro unidades flash NVMe de 1.5 TB, más ocho GPU Nvidia A3.2 de 80 GB, este último conectado por NVLink y NVSwitch.

Esto hace que la infraestructura de Vela se acerque más a la de un sitio de cómputo de alto rendimiento (HPC) que a la infraestructura de nube típica, a pesar de la insistencia de IBM de que estaba tomando un camino diferente ya que "las supercomputadoras tradicionales no fueron diseñadas para IA".

También es notable que IBM optó por utilizar procesadores x86 en lugar de sus propios chips Power 10, especialmente porque estos eran promocionado por Big Blue como ideal para cargas de trabajo con uso intensivo de memoria, como la inferencia de IA de modelos grandes.

Los nodos están interconectados mediante múltiples interfaces de red de 100 Gbps dispuestas en una estructura Clos de dos niveles, que está diseñada para que haya múltiples rutas para que los datos proporcionen redundancia.

Sin embargo, IBM explica en una publicación de blog sus razones para optar por una arquitectura nativa de la nube, que se centran en reducir el tiempo necesario para construir e implementar modelos de IA a gran escala tanto como sea posible.

“¿Construimos nuestro sistema en las instalaciones, utilizando el modelo de supercomputación tradicional, o construimos este sistema en la nube, en esencia, construyendo una supercomputadora que también es una nube?” pregunta el blog.

IBM afirma que al adoptar este último enfoque, ha comprometido un poco el rendimiento, pero ha ganado considerablemente en productividad. Esto se reduce a la capacidad de configurar todos los recursos necesarios a través del software, además de tener acceso a los servicios disponibles en IBM Cloud más amplio, con el ejemplo de cargar conjuntos de datos en Cloud Object Store de IBM en lugar de tener que construir una infraestructura de almacenamiento dedicada.

Big Blue también dijo que optó por operar todos los nodos en Vela como máquinas virtuales en lugar de instancias completas, ya que esto simplificaba el aprovisionamiento y reaprovisionamiento de la infraestructura con diferentes pilas de software requeridas por diferentes usuarios de IA.

“Las máquinas virtuales facilitarían a nuestro equipo de soporte la escalabilidad flexible de los clústeres de IA de forma dinámica y el cambio de recursos entre cargas de trabajo de varios tipos en cuestión de minutos”, explica el blog de IBM.

Pero la empresa afirma que encontró una manera de optimizar el rendimiento y minimizar la sobrecarga de virtualización a menos del 5 por ciento, cerca del rendimiento básico.

Esto incluyó la configuración del host bare metal para la virtualización con soporte para Virtual Machine Extensions (VMX), virtualización de E/S de raíz única (SR-IOV) y páginas enormes, entre otras configuraciones de hardware y software no especificadas.

Más detalles de la infraestructura de Vela se pueden encontrar en el blog de ibm.

IBM no es la única empresa que utiliza la nube para alojar una supercomputadora de IA. El año pasado, Microsoft presentó su propia plataforma utilizando la infraestructura de Azure combinada con los aceleradores de GPU, el kit de red y su paquete de software AI Enterprise de Nvidia. Se esperaba que esto estuviera disponible para que accedieran los clientes de Azure, pero no se especificó ningún período de tiempo.

Otras compañías que han estado construyendo supercomputadoras de IA, pero siguiendo la ruta tradicional de infraestructura local, incluyen Meta y Tesla. ®

Sello de tiempo:

Mas de El registro