Treinamento de grandes modelos LLM com bilhões a trilhões de parâmetros no supercomputador Frontier do ORNL

Treinamento de grandes modelos LLM com bilhões a trilhões de parâmetros no supercomputador Frontier do ORNL

Nó Fonte: 3065936

Um artigo técnico intitulado “Optimizing Distributed Training on Frontier for Large Language Models” foi publicado por pesquisadores do Oak Ridge National Laboratory (ORNL) e da Universite Paris-Saclay.

Abstrato:

“Os grandes modelos de linguagem (LLMs) demonstraram um sucesso notável como modelos fundamentais, beneficiando vários aplicativos downstream por meio do ajuste fino. Estudos recentes sobre escalonamento de perdas demonstraram o desempenho superior de LLMs maiores em comparação com seus equivalentes menores. No entanto, treinar LLMs com bilhões de parâmetros apresenta desafios significativos e requer recursos computacionais consideráveis. Por exemplo, treinar um modelo estilo GPT de um trilhão de parâmetros em 20 trilhões de tokens requer impressionantes 120 milhões de exaflops de computação. Esta pesquisa explora estratégias eficientes de treinamento distribuído para extrair esse cálculo do Frontier, o primeiro supercomputador exaescala do mundo dedicado à ciência aberta. Habilitamos e investigamos várias técnicas de treinamento paralelo de modelos e dados, como paralelismo de tensor, paralelismo de pipeline e paralelismo de dados fragmentados, para facilitar o treinamento de um modelo de trilhão de parâmetros no Frontier. Avaliamos empiricamente essas técnicas e seus parâmetros associados para determinar seu impacto no consumo de memória, na latência de comunicação e na eficiência computacional da GPU. Analisamos a complexa interação entre essas técnicas e encontramos uma estratégia para combiná-las para alcançar alto rendimento por meio do ajuste de hiperparâmetros. Identificamos estratégias eficientes para treinar grandes LLMs de tamanhos variados por meio de análise empírica e ajuste de hiperparâmetros. Para 22 bilhões, 175 bilhões e 1 trilhão de parâmetros, alcançamos taxas de transferência de GPU de 38.38%36.14%31.96%, respectivamente. Para o treinamento do modelo de parâmetros de 175 bilhões e do modelo de 1 trilhão de parâmetros, alcançamos 100% eficiência de escalonamento fraca em GPUs 1024 e 3072 MI250X, respectivamente. Também alcançamos fortes eficiências de expansão de 89% e 87% para esses dois modelos.”

Encontre o artigo técnico aqui. Publicado em dezembro de 2023 (pré-impressão).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang e Prasanna Balaprakash. “Otimizando o treinamento distribuído na Frontier para grandes modelos de linguagem.” Pré-impressão arXiv arXiv:2312.12705 (2023).

Leitura
IA corre até o limite
A inferência e algum treinamento estão sendo transferidos para dispositivos menores à medida que a IA se espalha para novas aplicações.

Carimbo de hora:

Mais de Semi Engenharia