Treinamento de grandes modelos LLM com bilhões a trilhões de parâmetros no supercomputador Frontier do ORNL

Republicado por Platão

seguidores: 0

Um artigo técnico intitulado “Optimizing Distributed Training on Frontier for Large Language Models” foi publicado por pesquisadores do Oak Ridge National Laboratory (ORNL) e da Universite Paris-Saclay.

Abstrato:

“Os grandes modelos de linguagem (LLMs) demonstraram um sucesso notável como modelos fundamentais, beneficiando vários aplicativos downstream por meio do ajuste fino. Estudos recentes sobre escalonamento de perdas demonstraram o desempenho superior de LLMs maiores em comparação com seus equivalentes menores. No entanto, treinar LLMs com bilhões de parâmetros apresenta desafios significativos e requer recursos computacionais consideráveis. Por exemplo, treinar um modelo estilo GPT de um trilhão de parâmetros em 20 trilhões de tokens requer impressionantes 120 milhões de exaflops de computação. Esta pesquisa explora estratégias eficientes de treinamento distribuído para extrair esse cálculo do Frontier, o primeiro supercomputador exaescala do mundo dedicado à ciência aberta. Habilitamos e investigamos várias técnicas de treinamento paralelo de modelos e dados, como paralelismo de tensor, paralelismo de pipeline e paralelismo de dados fragmentados, para facilitar o treinamento de um modelo de trilhão de parâmetros no Frontier. Avaliamos empiricamente essas técnicas e seus parâmetros associados para determinar seu impacto no consumo de memória, na latência de comunicação e na eficiência computacional da GPU. Analisamos a complexa interação entre essas técnicas e encontramos uma estratégia para combiná-las para alcançar alto rendimento por meio do ajuste de hiperparâmetros. Identificamos estratégias eficientes para treinar grandes LLMs de tamanhos variados por meio de análise empírica e ajuste de hiperparâmetros. Para 22 bilhões, 175 bilhões e 1 trilhão de parâmetros, alcançamos taxas de transferência de GPU de 38.38%, 36.14% e 31.96%, respectivamente. Para o treinamento do modelo de parâmetros de 175 bilhões e do modelo de 1 trilhão de parâmetros, alcançamos 100% eficiência de escalonamento fraca em GPUs 1024 e 3072 MI250X, respectivamente. Também alcançamos fortes eficiências de expansão de 89% e 87% para esses dois modelos.”

Encontre o artigo técnico aqui. Publicado em dezembro de 2023 (pré-impressão).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang e Prasanna Balaprakash. “Otimizando o treinamento distribuído na Frontier para grandes modelos de linguagem.” Pré-impressão arXiv arXiv:2312.12705 (2023).

Leitura
IA corre até o limite
A inferência e algum treinamento estão sendo transferidos para dispositivos menores à medida que a IA se espalha para novas aplicações.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://semiengineering.com/training-large-llm-models-with-billions-to-trillion-parameters-on-ornls-frontier-supercomputer/

Carimbo de hora: 16 de janeiro de 2024

Carimbo de hora: 13 de abril, 2023

Treinamento de grandes modelos LLM com bilhões a trilhões de parâmetros no supercomputador Frontier do ORNL

Republicado por Platão

Abstrato:

Mais de Semi Engenharia

Ataques de canal lateral de energia baseados em SystemC contra aceleradores de IA (Univ. de Lubeck)

Construindo carros melhores mais rapidamente

Plataforma de hardware para robôs em evolução

Crie aplicações seguras e econômicas de atuadores e sensores de próxima geração com base nas mais recentes arquiteturas E/E

Análise do blog: 10 de janeiro

FPGA modular torna o FPGA mais fácil de usar

Pedaços de pesquisa: 23 de janeiro

Ataques e defesas de canal lateral microarquitetural em RAM não volátil

Arm Total Compute: engenharia para as cargas de trabalho de amanhã

Chiplets: são necessários mais padrões

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta