En teknisk artikel med titeln "Optimizing Distributed Training on Frontier for Large Language Models" publicerades av forskare vid Oak Ridge National Laboratory (ORNL) och Universite Paris-Saclay.
Sammanfattning:
"Stora språkmodeller (LLM) har visat en anmärkningsvärd framgång som grundmodeller, och gynnat olika nedströmsapplikationer genom finjustering. Nyligen genomförda studier om förlustskalning har visat den överlägsna prestandan hos större LLM:er jämfört med deras mindre motsvarigheter. Ändå innebär utbildning av LLM:er med miljarder parametrar betydande utmaningar och kräver avsevärda beräkningsresurser. Till exempel, att träna en modell i GPT-stil med en biljoner parameter på 20 biljoner tokens kräver häpnadsväckande 120 miljoner exaflops av beräkning. Denna forskning utforskar effektiva distribuerade träningsstrategier för att extrahera denna beräkning från Frontier, världens första exascale superdator dedikerad till öppen vetenskap. Vi möjliggör och undersöker olika modell- och dataparallellträningstekniker, såsom tensorparallellism, pipelineparallellism och fragmenterad dataparallellism, för att underlätta träning av en biljonparametermodell på Frontier. Vi utvärderar empiriskt dessa tekniker och deras associerade parametrar för att bestämma deras inverkan på minnesfotavtryck, kommunikationslatens och GPU:s beräkningseffektivitet. Vi analyserar det komplexa samspelet mellan dessa tekniker och hittar en strategi för att kombinera dem för att uppnå hög genomströmning genom hyperparameterjustering. Vi har identifierat effektiva strategier för att träna stora LLM:er av varierande storlek genom empirisk analys och hyperparameterjustering. För 22 miljarder, 175 miljarder och 1 biljoner parametrar uppnådde vi GPU-genomströmningar på 38.38%, 36.14%och 31.96%, respektive. För utbildningen av 175 miljarder parametermodellen och 1 biljoner parametermodellen uppnådde vi 100% svag skalningseffektivitet på 1024 respektive 3072 MI250X GPU:er. Vi uppnådde också en stark skalningseffektivitet av 89% och 87% för dessa två modeller.”
Hitta tekniskt dokument här. Publicerad december 2023 (förtryck).
Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang och Prasanna Balaprakash. "Optimera distribuerad utbildning på gränsen för stora språkmodeller." arXiv förtryck arXiv:2312.12705 (2023).
Ytterligare läsning
AI rasar mot kanten
Inferencing och viss utbildning skjuts till mindre enheter när AI sprider sig till nya applikationer.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://semiengineering.com/training-large-llm-models-with-billions-to-trillion-parameters-on-ornls-frontier-supercomputer/
- 1
- 120
- 20
- 2023
- 22
- a
- Uppnå
- uppnås
- AI
- också
- bland
- analys
- analysera
- och
- tillämpningar
- ÄR
- AS
- bedöma
- associerad
- At
- Där vi får lov att vara utan att konstant prestera,
- gynnar
- Miljarder
- miljarder
- by
- utmaningar
- kombinera
- Kommunikation
- jämfört
- komplex
- beräkning
- beräkningar
- betydande
- motsvarigheter
- datum
- December
- dedicerad
- demonstreras
- Bestämma
- enheter
- distribueras
- distribuerad utbildning
- effektiviteter
- effektivitet
- effektiv
- möjliggöra
- exempel
- utforskar
- extrahera
- främja
- hitta
- Förnamn
- Fotavtryck
- För
- foundational
- från
- Frontier
- Frontier superdator
- GPU
- GPUs
- Har
- här.
- Hög
- HTTPS
- Inställning av hyperparameter
- identifierade
- Inverkan
- in
- undersöka
- jpg
- laboratorium
- språk
- Large
- större
- Latens
- förlust
- matte
- Minne
- miljon
- modell
- modeller
- nationell
- Icke desto mindre
- Nya
- ek
- Oak Ridge National Laboratory
- of
- on
- ONE
- öppet
- ORNL
- Papper
- Parallell
- parameter
- parametrar
- prestanda
- rörledning
- plato
- Platon Data Intelligence
- PlatonData
- utgör
- publicerade
- sköt
- tävlingar
- senaste
- anmärkningsvärd
- Kräver
- forskning
- forskare
- Resurser
- respektive
- romain
- s
- skalning
- Vetenskap
- skärmad
- signifikant
- storlekar
- mindre
- några
- Sprider
- förbluffande
- strategier
- Strategi
- stark
- studier
- framgång
- sådana
- superdator
- överlägsen
- Teknisk
- tekniker
- Smakämnen
- deras
- Dem
- Dessa
- detta
- Genom
- genomströmning
- betitlad
- till
- tokens
- Utbildning
- Biljon
- två
- olika
- varierande
- Wang
- var
- we
- med
- Världens
- xiao
- zephyrnet