Utbilda stora LLM-modeller med miljarder till biljoner parametrar på ORNL:s Frontier-superdator

Utbilda stora LLM-modeller med miljarder till biljoner parametrar på ORNL:s Frontier-superdator

Källnod: 3065936

En teknisk artikel med titeln "Optimizing Distributed Training on Frontier for Large Language Models" publicerades av forskare vid Oak Ridge National Laboratory (ORNL) och Universite Paris-Saclay.

Sammanfattning:

"Stora språkmodeller (LLM) har visat en anmärkningsvärd framgång som grundmodeller, och gynnat olika nedströmsapplikationer genom finjustering. Nyligen genomförda studier om förlustskalning har visat den överlägsna prestandan hos större LLM:er jämfört med deras mindre motsvarigheter. Ändå innebär utbildning av LLM:er med miljarder parametrar betydande utmaningar och kräver avsevärda beräkningsresurser. Till exempel, att träna en modell i GPT-stil med en biljoner parameter på 20 biljoner tokens kräver häpnadsväckande 120 miljoner exaflops av beräkning. Denna forskning utforskar effektiva distribuerade träningsstrategier för att extrahera denna beräkning från Frontier, världens första exascale superdator dedikerad till öppen vetenskap. Vi möjliggör och undersöker olika modell- och dataparallellträningstekniker, såsom tensorparallellism, pipelineparallellism och fragmenterad dataparallellism, för att underlätta träning av en biljonparametermodell på Frontier. Vi utvärderar empiriskt dessa tekniker och deras associerade parametrar för att bestämma deras inverkan på minnesfotavtryck, kommunikationslatens och GPU:s beräkningseffektivitet. Vi analyserar det komplexa samspelet mellan dessa tekniker och hittar en strategi för att kombinera dem för att uppnå hög genomströmning genom hyperparameterjustering. Vi har identifierat effektiva strategier för att träna stora LLM:er av varierande storlek genom empirisk analys och hyperparameterjustering. För 22 miljarder, 175 miljarder och 1 biljoner parametrar uppnådde vi GPU-genomströmningar på 38.38%36.14%och 31.96%, respektive. För utbildningen av 175 miljarder parametermodellen och 1 biljoner parametermodellen uppnådde vi 100% svag skalningseffektivitet på 1024 respektive 3072 MI250X GPU:er. Vi uppnådde också en stark skalningseffektivitet av 89% och 87% för dessa två modeller.”

Hitta tekniskt dokument här. Publicerad december 2023 (förtryck).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang och Prasanna Balaprakash. "Optimera distribuerad utbildning på gränsen för stora språkmodeller." arXiv förtryck arXiv:2312.12705 (2023).

Ytterligare läsning
AI rasar mot kanten
Inferencing och viss utbildning skjuts till mindre enheter när AI sprider sig till nya applikationer.

Tidsstämpel:

Mer från Semi-teknik