Træning af store LLM-modeller med milliarder til billioner parametre på ORNL's Frontier Supercomputer

Træning af store LLM-modeller med milliarder til billioner parametre på ORNL's Frontier Supercomputer

Kildeknude: 3065936

Et teknisk papir med titlen "Optimizing Distributed Training on Frontier for Large Language Models" blev offentliggjort af forskere ved Oak Ridge National Laboratory (ORNL) og Universite Paris-Saclay.

Abstract:

"Store sprogmodeller (LLM'er) har vist en bemærkelsesværdig succes som grundlæggende modeller, der gavner forskellige downstream-applikationer gennem finjustering. Nylige undersøgelser af tabsskalering har vist den overlegne ydeevne af større LLM'er sammenlignet med deres mindre modparter. Ikke desto mindre udgør træning af LLM'er med milliarder af parametre betydelige udfordringer og kræver betydelige beregningsressourcer. For eksempel kræver træning af en model i GPT-stil med én trillion parameter på 20 billioner tokens svimlende 120 millioner eksaflops af beregninger. Denne forskning udforsker effektive distribuerede træningsstrategier til at udtrække denne beregning fra Frontier, verdens første exascale supercomputer dedikeret til åben videnskab. Vi muliggør og undersøger forskellige model- og dataparallelle træningsteknikker, såsom tensor-parallelisme, pipeline-parallelisme og sharded data-parallelisme, for at lette træningen af ​​en trillion-parametermodel på Frontier. Vi vurderer empirisk disse teknikker og deres tilknyttede parametre for at bestemme deres indvirkning på hukommelsesfodaftryk, kommunikationsforsinkelse og GPU's beregningseffektivitet. Vi analyserer det komplekse samspil mellem disse teknikker og finder en strategi til at kombinere dem for at opnå høj gennemstrømning gennem hyperparameterjustering. Vi har identificeret effektive strategier til træning af store LLM'er af varierende størrelse gennem empirisk analyse og hyperparameterjustering. For 22 milliarder, 175 milliarder og 1 billioner parametre opnåede vi GPU-gennemløb på 38.38%36.14%og 31.96%, henholdsvis. Til træning af 175 milliarder parametermodellen og 1 trillion parametermodellen opnåede vi 100% svag skaleringseffektivitet på henholdsvis 1024 og 3072 MI250X GPU'er. Vi opnåede også stærke skaleringseffektiviteter af 89% , 87% for disse to modeller."

Find teknisk papir her. Udgivet december 2023 (fortryk).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang og Prasanna Balaprakash. "Optimering af distribueret træning på grænsen til store sprogmodeller." arXiv preprint arXiv:2312.12705 (2023).

Yderligere læsning
AI kører mod kanten
Inferencing og noget træning bliver skubbet til mindre enheder, efterhånden som AI spreder sig til nye applikationer.

Tidsstempel:

Mere fra Semi Engineering