El crecimiento de la red neuronal requiere un escalado de semiconductores sin precedentes

Nodo de origen: 1878456

La verdad es que estamos apenas al comienzo de la revolución de la Inteligencia Artificial (IA). Las capacidades de la IA recién ahora están comenzando a mostrar indicios de lo que depara el futuro. Por ejemplo, los automóviles utilizan grandes modelos de redes neuronales complejas no solo para comprender su entorno, sino también para dirigirse y controlarse a sí mismos. Para cualquier aplicación, debe haber datos de entrenamiento para crear redes útiles. El tamaño de las operaciones de entrenamiento e inferencia está creciendo rápidamente a medida que se incorporan datos útiles del mundo real en los modelos. Veamos el crecimiento de los modelos en los últimos años para comprender cómo esto impulsa las necesidades de potencia de procesamiento para el entrenamiento y la inferencia.

Crecimiento de la red neuronal
Crecimiento de la red neuronal

En una presentación en el Ansys 2021 Ideas Digital Forum, el vicepresidente de ingeniería de Cerebras, Dhiraj Mallik, brindó información sobre el crecimiento de los modelos de redes neuronales. En los últimos dos años, el tamaño del modelo se ha multiplicado por 1000, de BERT Base (110 MB) a GPT-3 (175 GB). Y a la vista, está el modelo MSFT-1T, con un tamaño de 1 TB. El modelo GPT-3, que es un tema interesante en sí mismo, se entrenó con hardware convencional utilizando 1024 GPU durante 4 meses. Es un modelo de procesamiento de lenguaje natural (PNL) que utiliza la mayoría de los datos de texto en Internet y otras fuentes. Fue desarrollado por Open AI y ahora es la base del OpenAI Codex, que es una aplicación que puede escribir código de programación útil en varios lenguajes a partir de instrucciones en lenguaje sencillo de los usuarios. GPT-3 se puede utilizar para escribir artículos cortos que la mayoría de los lectores no saben que fueron escritos por un programa de IA.

Como puede ver arriba, ejecutar 1024 GPU durante 4 meses no es factible. En su charla titulada "Entrega de aceleración AP sin precedentes: más allá de la ley de Moore", Dhiraj señala que los avances necesarios para respaldar este nivel de crecimiento de semiconductores van mucho más allá de lo que estamos acostumbrados a ver con la ley de Moore. En respuesta a esta necesidad percibida del mercado, Cerebras lanzó su motor de IA a escala de oblea WSE-1 en 2019, 56 veces más grande que cualquier chip jamás producido. Un año y medio después anunciaron el WSE-2, nuevamente el chip más grande jamás construido con:

  • 6 billones de transistores
  • 850,000 núcleos de IA optimizados
  • RAM de 40 GB
  • 20 petabytes / s de ancho de banda de memoria
  • 220 petabytes de ancho de banda de tejido
  • Construido con el proceso N7 de TSMC
  • Una oblea contiene 84 troqueles, cada uno de 550 mm.2.

El sistema CS-2 que encapsula el WSE-2 puede adaptarse a modelos de IA con 120 billones de parámetros. Lo que es aún más impresionante es que los sistemas CS-2 pueden integrarse en grupos de 192 unidades para proporcionar ganancias de rendimiento casi lineales. Cerebras ha desarrollado un subsistema de memoria que desagrega la memoria y el cálculo para proporcionar un mejor escalado y un rendimiento mejorado para modelos extremadamente grandes. Cerebras también ha desarrollado optimizaciones para la escasez en los conjuntos de entrenamiento, lo que ahorra tiempo y energía.

La presentación de Dhiraj entra en más detalles sobre sus capacidades, especialmente en el área de escalar de manera eficiente con modelos más grandes para mantener el rendimiento y la capacidad. Desde la perspectiva de los semiconductores, también es interesante ver cómo Cerebras analizó la caída de infrarrojos, la electromigración y la aprobación de ESD en un diseño que es 2 órdenes de magnitud más grande que cualquier otra cosa que haya intentado la industria de los semiconductores. Dhiraj habla sobre cómo en cada nivel del diseño (mosaico, bloque y oblea completa) Cerebras usó Ansys RedHawk-SC en múltiples CPU para la señalización de caída de IR estática y dinámica. RedHawk-SC también se utilizó para controles de electromigración de señales y electromigración de potencia. De manera similar, utilizaron Ansys Pathfinder para controles de densidad de corriente y resistencia a descargas electrostáticas (ESD).

Con una pieza de silicio de este tamaño a 7 nm, las decisiones de la herramienta son literalmente "hacer o deshacer". Construir silicio tan disruptivo requiere muchas opciones muy bien consideradas en el proceso de desarrollo y, por supuesto, una capacidad incomparable es una preocupación principal. Sin embargo, como muestra claramente la presentación de Dhiraj, el nivel de mayor potencia de procesamiento de CS-2 es necesario para gestionar la tasa de crecimiento que estamos viendo en los modelos AI / ML. Sin duda, hoy veremos innovaciones que están más allá de nuestra imaginación en el campo de la IA. Así como la web y la nube han alterado la tecnología e incluso la sociedad, podemos esperar que el desarrollo de una nueva tecnología de IA cambie nuestro mundo de manera dramática. Si está interesado en aprender más sobre el silicio Cerebras, eche un vistazo a la presentación de Dhiraj en Ansys IDEAS Digital Forum en www.ansys.com/ideas.

Comparte esta publicación a través de: Fuente: https://semiwiki.com/eda/303587-neural-network-growth-requires-unprecedented-semiconductor-scaling/

Sello de tiempo:

Mas de Semiwiki