Træning af store LLM-modeller med milliarder til billioner parametre på ORNL's Frontier Supercomputer

Genudgivet af Platon

Abonnenter: 0

Et teknisk papir med titlen "Optimizing Distributed Training on Frontier for Large Language Models" blev offentliggjort af forskere ved Oak Ridge National Laboratory (ORNL) og Universite Paris-Saclay.

Abstract:

"Store sprogmodeller (LLM'er) har vist en bemærkelsesværdig succes som grundlæggende modeller, der gavner forskellige downstream-applikationer gennem finjustering. Nylige undersøgelser af tabsskalering har vist den overlegne ydeevne af større LLM'er sammenlignet med deres mindre modparter. Ikke desto mindre udgør træning af LLM'er med milliarder af parametre betydelige udfordringer og kræver betydelige beregningsressourcer. For eksempel kræver træning af en model i GPT-stil med én trillion parameter på 20 billioner tokens svimlende 120 millioner eksaflops af beregninger. Denne forskning udforsker effektive distribuerede træningsstrategier til at udtrække denne beregning fra Frontier, verdens første exascale supercomputer dedikeret til åben videnskab. Vi muliggør og undersøger forskellige model- og dataparallelle træningsteknikker, såsom tensor-parallelisme, pipeline-parallelisme og sharded data-parallelisme, for at lette træningen af en trillion-parametermodel på Frontier. Vi vurderer empirisk disse teknikker og deres tilknyttede parametre for at bestemme deres indvirkning på hukommelsesfodaftryk, kommunikationsforsinkelse og GPU's beregningseffektivitet. Vi analyserer det komplekse samspil mellem disse teknikker og finder en strategi til at kombinere dem for at opnå høj gennemstrømning gennem hyperparameterjustering. Vi har identificeret effektive strategier til træning af store LLM'er af varierende størrelse gennem empirisk analyse og hyperparameterjustering. For 22 milliarder, 175 milliarder og 1 billioner parametre opnåede vi GPU-gennemløb på 38.38%, 36.14%og 31.96%, henholdsvis. Til træning af 175 milliarder parametermodellen og 1 trillion parametermodellen opnåede vi 100% svag skaleringseffektivitet på henholdsvis 1024 og 3072 MI250X GPU'er. Vi opnåede også stærke skaleringseffektiviteter af 89% , 87% for disse to modeller."

Find teknisk papir her. Udgivet december 2023 (fortryk).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang og Prasanna Balaprakash. "Optimering af distribueret træning på grænsen til store sprogmodeller." arXiv preprint arXiv:2312.12705 (2023).

Yderligere læsning
AI kører mod kanten
Inferencing og noget træning bliver skubbet til mindre enheder, efterhånden som AI spreder sig til nye applikationer.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://semiengineering.com/training-large-llm-models-with-billions-to-trillion-parameters-on-ornls-frontier-supercomputer/

Tidsstempel: Januar 16, 2024

Tidsstempel: April 13, 2023

Træning af store LLM-modeller med milliarder til billioner parametre på ORNL's Frontier Supercomputer

Genudgivet af Platon

Abstract:

Mere fra Semi Engineering

SystemC-baserede Power Side-Channel-angreb mod AI-acceleratorer (Univ. of Lubeck)

Byg bedre biler hurtigere

Hardwareplatform til udviklende robotter

Byg sikrede og omkostningseffektive næste generations aktuator- og sensorapplikationer baseret på de nyeste E/E-arkitekturer

Bloggennemgang: 10. januar

Modulær FPGA gør FPGA nemmere at bruge

Research Bits: 23. januar

Mikroarkitektoniske sidekanalangreb og forsvar på ikke-flygtig RAM

Arm Total Compute: Engineering til morgendagens arbejdsbelastninger

Chiplets: Flere standarder er nødvendige

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto