Antrenarea modelelor LLM mari cu parametri de miliarde până la trilioane pe supercomputerul Frontier ORNL

Republicat de Platon

Urmaritori: 0

O lucrare tehnică intitulată „Optimizing Distributed Training on Frontier for Large Language Models” a fost publicată de cercetătorii de la Laboratorul Național Oak Ridge (ORNL) și de la Universitatea Paris-Saclay.

Rezumat:

„Modelele de limbaj mari (LLM) au demonstrat un succes remarcabil ca modele fundamentale, beneficiind de diverse aplicații din aval prin reglare fină. Studii recente privind scalarea pierderilor au demonstrat performanța superioară a LLM-urilor mai mari în comparație cu omologii lor mai mici. Cu toate acestea, formarea LLM-urilor cu miliarde de parametri ridică provocări semnificative și necesită resurse de calcul considerabile. De exemplu, antrenarea unui model în stil GPT cu un trilion de parametri pe 20 de trilioane de jetoane necesită un calcul uimitor de 120 de milioane de exaflops. Această cercetare explorează strategii eficiente de antrenament distribuit pentru a extrage acest calcul din Frontier, primul supercomputer exascale din lume dedicat științei deschise. Activam și investigăm diferite tehnici de antrenament în paralel cu modele și date, cum ar fi paralelismul tensor, paralelismul conductelor și paralelismul datelor fragmentate, pentru a facilita antrenamentul unui model cu un trilion de parametri pe Frontier. Evaluăm empiric aceste tehnici și parametrii lor asociați pentru a determina impactul lor asupra amprentei memoriei, a latenței de comunicare și a eficienței de calcul a GPU-ului. Analizăm interacțiunea complexă dintre aceste tehnici și găsim o strategie pentru a le combina pentru a obține un randament ridicat prin reglarea hiperparametrului. Am identificat strategii eficiente pentru antrenarea LLM-urilor mari de dimensiuni diferite prin analiză empirică și reglarea hiperparametrilor. Pentru 22 de miliarde, 175 de miliarde și 1 trilion de parametri, am atins performanțe GPU de 38.38%, 36.14%, și 31.96%, respectiv. Pentru antrenamentul modelului cu parametri 175 de miliarde și modelului cu parametrii 1 trilion, am realizat 100% eficiență de scalare slabă pe GPU-urile MI1024X 3072 și, respectiv, 250. De asemenea, am obținut o eficiență puternică de scalare a 89% și 87% pentru aceste două modele.”

Găsi lucrare tehnică aici. Publicat în decembrie 2023 (preprint).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang și Prasanna Balaprakash. „Optimizarea instruirii distribuite pe Frontier pentru modele lingvistice mari.” arXiv preprint arXiv:2312.12705 (2023).

Lecturi suplimentare
AI Ras To the Edge
Inferențele și unele antrenamente sunt transferate pe dispozitive mai mici, pe măsură ce AI se răspândește la noi aplicații.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://semiengineering.com/training-large-llm-models-with-billions-to-trillion-parameters-on-ornls-frontier-supercomputer/

Timestamp-ul: Ianuarie 16, 2024

Timestamp-ul: Aprilie 13, 2023

Antrenarea modelelor LLM mari cu parametri de miliarde până la trilioane pe supercomputerul Frontier ORNL

Republicat de Platon

Rezumat:

Mai mult de la Semi Inginerie

Atacurile pe canalul lateral de putere bazate pe SystemC împotriva acceleratoarelor AI (Univ. Lubeck)

Construiți mai repede mașini mai bune

Platformă hardware pentru roboți în evoluție

Creați aplicații securizate și rentabile pentru dispozitive de acționare și senzori de ultimă generație, bazate pe cele mai recente arhitecturi E/E

Recenzie blog: 10 ianuarie

FPGA modular face FPGA mai ușor de utilizat

Biți de cercetare: 23 ianuarie

Atacuri și apărări microarhitecturale pe canale laterale pe RAM non-volatilă

Arm Total Compute: Inginerie pentru sarcinile de lucru de mâine

Chiplets: Sunt necesare mai multe standarde

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont