Entrenamiento de grandes modelos LLM con miles de millones a billones de parámetros en la supercomputadora Frontier de ORNL

Entrenamiento de grandes modelos LLM con miles de millones a billones de parámetros en la supercomputadora Frontier de ORNL

Nodo de origen: 3065936

Investigadores del Laboratorio Nacional Oak Ridge (ORNL) y la Universidad Paris-Saclay publicaron un artículo técnico titulado “Optimización de la capacitación distribuida en la frontera para modelos de lenguaje grandes”.

Abstracto:

“Los modelos de lenguajes grandes (LLM) han demostrado un éxito notable como modelos fundamentales, beneficiando a varias aplicaciones posteriores mediante ajustes. Estudios recientes sobre escalamiento de pérdidas han demostrado el rendimiento superior de los LLM más grandes en comparación con sus contrapartes más pequeñas. Sin embargo, entrenar LLM con miles de millones de parámetros plantea desafíos importantes y requiere recursos computacionales considerables. Por ejemplo, entrenar un modelo estilo GPT de un billón de parámetros en 20 billones de tokens requiere la asombrosa cantidad de 120 millones de exaflops de cálculo. Esta investigación explora estrategias eficientes de entrenamiento distribuido para extraer este cálculo de Frontier, la primera supercomputadora a exaescala del mundo dedicada a la ciencia abierta. Habilitamos e investigamos varias técnicas de entrenamiento paralelo de datos y modelos, como el paralelismo tensorial, el paralelismo de canalización y el paralelismo de datos fragmentados, para facilitar el entrenamiento de un modelo de un billón de parámetros en Frontier. Evaluamos empíricamente estas técnicas y sus parámetros asociados para determinar su impacto en la huella de memoria, la latencia de comunicación y la eficiencia computacional de la GPU. Analizamos la compleja interacción entre estas técnicas y encontramos una estrategia para combinarlas para lograr un alto rendimiento mediante el ajuste de hiperparámetros. Hemos identificado estrategias eficientes para capacitar grandes LLM de diferentes tamaños mediante análisis empírico y ajuste de hiperparámetros. Para 22 mil millones, 175 mil millones y 1 billón de parámetros, logramos rendimientos de GPU de 38.38%36.14%31.96%, respectivamente. Para el entrenamiento del modelo de 175 mil millones de parámetros y el modelo de 1 billón de parámetros, logramos 100% eficiencia de escalado débil en GPU MI1024X 3072 y 250, respectivamente. También logramos fuertes eficiencias de escalamiento de 89% y 87% para estos dos modelos”.

Encuentra los documento técnico aquí. Publicado en diciembre de 2023 (preimpresión).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang y Prasanna Balaprakash. "Optimización de la formación distribuida en Frontier para modelos de lenguajes grandes". Preimpresión de arXiv arXiv:2312.12705 (2023).

OTRAS LECTURAS
La IA corre hacia el límite
Las inferencias y algo de capacitación se están trasladando a dispositivos más pequeños a medida que la IA se extiende a nuevas aplicaciones.

Sello de tiempo:

Mas de Semi Ingeniería