El papel de la CPU en la IA/ML sostenible

El papel de la CPU en la IA/ML sostenible

Nodo de origen: 3093662

Publicitario A medida que la IA extiende su alcance a los entornos informáticos empresariales, su impacto está provocando algunos efectos colaterales imprevistos. Lo último de IDC paisajefuturo El informe, por ejemplo, predice que a medida que las empresas se apresuren a introducir productos/servicios mejorados con IA y ayudar a sus clientes con implementaciones de IA, la tecnología se convertirá en un motivador clave para la innovación.

Otro cambio impulsado por la IA gira en torno a hasta qué punto los centros de datos tendrán que equilibrar las CPU con aceleradores de IA discretos, como GPU o arquitecturas especializadas, para proporcionar las capacidades informáticas de alto rendimiento que desean los desarrolladores de IA.

Es un debate que plantea cuestiones de alto riesgo para los propietarios de centros de datos, tanto en términos de inversión CAPEX adicional como de la probabilidad de que (si bien los métodos de medición son imprecisos) las operaciones típicas de IA impulsadas por GPU consuman más energía que las cargas de trabajo de TI convencionales.

Lidiar con los mayores gastos generales de energía y carbono de la IA es un problema adicional para las operaciones de los centros de datos, que también deben garantizar que las arquitecturas informáticas mejoradas y optimizadas para la IA puedan gestionar las mayores demandas de energía sin riesgo de sobrecargar la tecnología o las instalaciones existentes.

Entonces, a medida que la regulación ampliada en la gobernanza de la sostenibilidad y la gestión del carbono impulsa las operaciones a reducir el uso de energía en toda la gama de hardware y software de TI, la IA representa tanto una oportunidad como un obstáculo.

Mitigar el consumo de energía de la IA

En conjunto, el mayor consumo de energía y las reconfiguraciones arquitectónicas necesarias para acomodar las cargas de trabajo de IA y aprendizaje automático plantean un desafío inexorable para los centros de datos, explica Stephan Gillich, director de Inteligencia Artificial GTM en el Centro de Excelencia de IA de Intel.

“Está bastante claro en todos los sectores e industrias verticales, dondequiera que se desarrollen, entrenen y ejecuten servicios y aplicaciones de IA/aprendizaje automático, que las capacidades de las instalaciones de TI locales y alojadas en la nube tendrán que someterse a actualizaciones para hacer frente a mayores volúmenes de datos. -cargas de trabajo intensivas”, dice Gillich. "También está claro que esas actualizaciones tendrán que implicar algo más que simplemente aumentar la capacidad informática".

Gillich cree que se puede hacer mucho para mejorar la sostenibilidad de los centros de datos centrados en la IA, empezando por reevaluar algunas de las suposiciones en torno al panorama de la IA y el aprendizaje automático. Las unidades de procesamiento son un buen punto de partida, especialmente a la hora de decidir si las CPU o las GPU son más adecuadas para la tarea.

Porque si bien las cargas de trabajo de computación intensiva específicas de IA parecen estar en aumento (nadie está seguro de a qué ritmo), la mayor parte del trabajo del centro de datos (las cargas de trabajo que no son de IA) debe continuar funcionando día tras día, entregando aplicaciones constantes. y los flujos de ingresos por servicios no deben ser perturbados.

Actualmente, la mayoría de estos son manejados por CPU y reequipar un centro de datos estándar con GPU más costosas sería para muchas instalaciones exceder los requisitos. En términos generales, una GPU consume más potencia que una CPU para realizar una tarea similar. Dependiendo del suministro de energía para una configuración de rack determinada, la integración de GPU en la infraestructura del centro de datos requiere actualizaciones de los sistemas de distribución de energía, por ejemplo, que seguramente generarán costos iniciales adicionales, además de facturas de energía más altas una vez que estén en funcionamiento.

Es más, el desarrollo de CPU de Intel continúa innovando. En múltiples casos de uso se puede demostrar que una CPU logra un rendimiento general tan bueno (y a veces mejor) que una GPU, sostiene Gillich. Y su rendimiento se puede aumentar con tecnología innovadora como Intel® AMX (Advanced Matrix Extensions), un acelerador integrado en las CPU Intel Xeon de cuarta generación.

"Los procesadores Intel Xeon pueden permitir que un centro de datos amplíe su adopción de IA a través de una aceleración de IA incorporada que aumenta el rendimiento de la CPU para el aprendizaje automático, la capacitación y la inferencia", señala Gillich. "De esta manera, pueden adoptar aceleradores discretos para minimizar el CAPEX y maximizar el rendimiento mientras aprovechan los entornos de procesamiento Intel Xeon existentes".

Necesidad de combinar cargas de trabajo con y sin IA

Intel AMX es un bloque de hardware dedicado en el núcleo del procesador Intel Xeon Scalable que permite que las cargas de trabajo de IA se ejecuten en la CPU en lugar de descargarlas a un acelerador discreto, lo que proporciona un aumento significativo del rendimiento. Es adecuado para cargas de trabajo de IA, como sistemas de recomendación de aprendizaje automático, reconocimiento de imágenes y procesamiento de lenguaje natural, que se basan en matemáticas matriciales.

Otro argumento a favor de las CPU aumentadas es que proporcionan una ruta rentable para que los operadores de centros de datos aprovechen al máximo sus compromisos de CPU existentes, preparen sus activos para el futuro para que puedan asumir cargas de trabajo mixtas y los coloquen en una posición para mejorar controlar el uso general de energía.

Esto, a su vez, puede ayudar a los proveedores de servicios de centros de datos (y a sus clientes) a cumplir los objetivos de sostenibilidad y proporciona un punto de venta para los desarrolladores de software (empresariales o de terceros) que buscan una plataforma optimizada para mostrar la eficiencia energética de su codificación. salidas.

"La realidad es que, en lugar de apresurarse a aprovechar las oportunidades que las cargas de trabajo de IA pueden prometer, los operadores de centros de datos se están dando cuenta de que deben considerar una serie de imperativos que se basan tanto en preocupaciones comerciales como en opciones tecnológicas", afirma Gillich.

Estos imperativos podrían incluir: la integración de cargas de trabajo de IA con cargas de trabajo que no sean de IA; la integración de diferentes pilas de hardware y software; y porque quieren asegurarse de tener una arquitectura adecuada para múltiples cargas de trabajo diferentes, la integración de diferentes tipos de flujos de trabajo.

"Estas preguntas apuntan a desafíos complejos, porque hacerlos bien influye en la eficiencia energética y tecnológica óptima; siendo la eficiencia energética ahora un punto de referencia de desempeño central que afectará cada vez más la viabilidad comercial de un centro de datos", dice Gillich. "De nuevo, es de suma importancia".

Desde la perspectiva de Gillich, la clave para adaptarse a esta realidad emergente es un proceso gradual de lo que se puede denominar "asimilación de la IA". El primer punto aquí es que las cargas de trabajo de IA no están separadas de otros tipos de cargas de trabajo: se integrarán en cargas de trabajo convencionales, en lugar de ejecutarse por separado.

Gillich pone la videoconferencia como ejemplo de esta integración gradual: “Ya mientras se transmite tráfico de audio/vídeo estándar a través de aplicaciones estándar, la IA se integra para realizar tareas concomitantes como resúmenes, traducción y transcripción. Estas funciones están muy bien respaldadas por la IA.

Ahorro de energía de extremo a extremo

Lograr eficiencias energéticas debe ser una verdadera tarea estratégica de extremo a extremo, sostiene Gillich. “Abarca el lado del software así como las arquitecturas de hardware: el mecanismo completo que permite un proceso de flujo de trabajo determinado. ¿Dónde se almacenan los datos para que el acceso sea más eficiente (en términos de computación y, por lo tanto, de energía)? ¿Es ese el mejor lugar para la eficiencia energética?

El otro factor a tener en cuenta en esta evaluación es determinar dónde se está ejecutando la carga de trabajo. Por ejemplo, ¿se ejecuta en clientes (como una PC con IA equipada con procesadores Intel Core Ultra, en lugar de servidores en el centro de datos? ¿Se pueden ejecutar algunas de estas cargas de trabajo de IA en clientes (junto con los servidores)?

Cada opción es digna de consideración si va a ayudar a alinear mejor el equilibrio entre IA, computación y consumo de energía, sostiene Gillich: "Es casi como un regreso a la noción de la vieja escuela de computación distribuida".

Gillich añade: “A veces nuestros clientes preguntan: '¿Dónde jugará la IA?' – la respuesta es que la IA funcionará en todas partes. Por eso, en Intel nuestra ambición se centra en lo que podría denominarse la adaptación universal de la IA, porque creemos que entrará en todos los campos de aplicación”.

En Intel, esto abarca middleware como las API, que, como ocurre con cualquier otra parte de la pila de software, deben ser lo más eficientes posible. La "expansión de API" puede resultar en un procesamiento innecesario, minimizando su huella de infraestructura y falta de monitoreo y control.

"Con Intel una API, las empresas pueden aprovechar todo el valor del hardware, desarrollar código de arquitectura cruzada de alto rendimiento y preparar sus aplicaciones para necesidades futuras”, explica Gillich.

“Intel oneAPI es un modelo de programación abierto, multisectorial, basado en estándares, unificado, multiarquitectura y multiproveedor que ofrece una experiencia de desarrollador común en todas las arquitecturas de aceleradores, para un rendimiento más rápido de las aplicaciones y una productividad mejorada. La iniciativa oneAPI fomenta la colaboración en la especificación oneAPI y las implementaciones compatibles de oneAPI en todo el ecosistema”.

Gillich agrega: “oneAPI proporciona una pila de middleware que toma elementos estándar como AI Frameworks, como Pytorch o TensorFlow [la plataforma de software de código abierto para AI y Machine Learning], y los traduce a nivel de máquina, y oneAPI permite una manera eficiente de Haz eso. Los usuarios pueden usar una API común a nivel del marco Ai, y tenemos una API (oneAPI) que aborda los diferentes tipos de hardware”. Por lo tanto, una API común significa que los usuarios pueden crear software abierto que pueda ser compatible con una pila de software abierta.

Rendimiento a nivel de GPU a precios de nivel de CPU

El progreso en TI está impulsado en gran medida por la expectativa de un avance tecnológico continuo junto con mejoras impulsadas por el conocimiento en las estrategias de implementación. Es un modelo basado en encontrar el mejor equilibrio posible entre el gasto presupuestario y el retorno de la inversión empresarial, y la expectativa de que siempre hay más innovación por la que luchar. La IA representa el apogeo de este ideal: es lo suficientemente inteligente como para reinventar su propia propuesta de valor a través de la superación personal perpetua.

Al incorporar el acelerador AMX en sus CPU Intel Xeon de cuarta generación, Intel muestra cómo se puede lograr rendimiento a nivel de GPU a precios al nivel de CPU. Esto permite que los centros de datos escale mientras maximiza el valor de retorno de sus actuales procesadores Intel Xeon, pero también proporciona un modelo de precios que reduce el costo de entrada para los clientes con cargas de trabajo de IA pero presupuestos limitados.

Y el menor consumo de energía de las CPU significa que la eficiencia energética se puede lograr de manera integral en todas las operaciones de una instalación de centro de datos, como refrigeración y ventilación, y ese es otro atractivo ganador para los arquitectos de software y desarrolladores de soluciones AL conscientes de la sostenibilidad.

Contribuido por Intel.

Sello de tiempo:

Mas de El registro