Utbilda stora LLM-modeller med miljarder till biljoner parametrar på ORNL:s Frontier Supercomputer

Återutgiven av Platon

anhängare: 0

En teknisk artikel med titeln "Optimizing Distributed Training on Frontier for Large Language Models" publicerades av forskare vid Oak Ridge National Laboratory (ORNL) och Universite Paris-Saclay.

Sammanfattning:

"Stora språkmodeller (LLM) har visat en anmärkningsvärd framgång som grundmodeller, och gynnat olika nedströmsapplikationer genom finjustering. Nyligen genomförda studier om förlustskalning har visat den överlägsna prestandan hos större LLM:er jämfört med deras mindre motsvarigheter. Ändå innebär utbildning av LLM:er med miljarder parametrar betydande utmaningar och kräver avsevärda beräkningsresurser. Till exempel, att träna en modell i GPT-stil med en biljoner parameter på 20 biljoner tokens kräver häpnadsväckande 120 miljoner exaflops av beräkning. Denna forskning utforskar effektiva distribuerade träningsstrategier för att extrahera denna beräkning från Frontier, världens första exascale superdator dedikerad till öppen vetenskap. Vi möjliggör och undersöker olika modell- och dataparallellträningstekniker, såsom tensorparallellism, pipelineparallellism och fragmenterad dataparallellism, för att underlätta träning av en biljonparametermodell på Frontier. Vi utvärderar empiriskt dessa tekniker och deras associerade parametrar för att bestämma deras inverkan på minnesfotavtryck, kommunikationslatens och GPU:s beräkningseffektivitet. Vi analyserar det komplexa samspelet mellan dessa tekniker och hittar en strategi för att kombinera dem för att uppnå hög genomströmning genom hyperparameterjustering. Vi har identifierat effektiva strategier för att träna stora LLM:er av varierande storlek genom empirisk analys och hyperparameterjustering. För 22 miljarder, 175 miljarder och 1 biljoner parametrar uppnådde vi GPU-genomströmningar på 38.38%, 36.14%och 31.96%, respektive. För utbildningen av 175 miljarder parametermodellen och 1 biljoner parametermodellen uppnådde vi 100% svag skalningseffektivitet på 1024 respektive 3072 MI250X GPU:er. Vi uppnådde också en stark skalningseffektivitet av 89% och 87% för dessa två modeller.”

Hitta tekniskt dokument här. Publicerad december 2023 (förtryck).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang och Prasanna Balaprakash. "Optimera distribuerad utbildning på gränsen för stora språkmodeller." arXiv förtryck arXiv:2312.12705 (2023).

Ytterligare läsning
AI rasar mot kanten
Inferencing och viss utbildning skjuts till mindre enheter när AI sprider sig till nya applikationer.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://semiengineering.com/training-large-llm-models-with-billions-to-trillion-parameters-on-ornls-frontier-supercomputer/

Tidsstämpel: Januari 16, 2024

Tidsstämpel: April 13, 2023

Utbilda stora LLM-modeller med miljarder till biljoner parametrar på ORNL:s Frontier-superdator

Återutgiven av Platon

Sammanfattning:

Mer från Semi-teknik

SystemC-baserade Power Side-Channel Attacks Against AI Accelerators (Univ. of Lubeck)

Bygga bättre bilar snabbare

Hårdvaruplattform för utvecklande robotar

Bygg säkra och kostnadseffektiva nästa generations ställdon och sensorapplikationer baserade på de senaste E/E-arkitekturerna

Bloggrecension: 10 januari

Modulär FPGA gör FPGA enklare att använda

Forskningsbitar: 23 januari

Mikroarkitektoniska sidokanalattacker och försvar på icke-flyktigt RAM

Arm Total Compute: Engineering för morgondagens arbetsbelastningar

Chiplets: Fler standarder behövs

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto