Antrenarea modelelor LLM mari cu parametri de miliarde până la trilioane pe supercomputerul Frontier ORNL

Antrenarea modelelor LLM mari cu parametri de miliarde până la trilioane pe supercomputerul Frontier ORNL

Nodul sursă: 3065936

O lucrare tehnică intitulată „Optimizing Distributed Training on Frontier for Large Language Models” a fost publicată de cercetătorii de la Laboratorul Național Oak Ridge (ORNL) și de la Universitatea Paris-Saclay.

Rezumat:

„Modelele de limbaj mari (LLM) au demonstrat un succes remarcabil ca modele fundamentale, beneficiind de diverse aplicații din aval prin reglare fină. Studii recente privind scalarea pierderilor au demonstrat performanța superioară a LLM-urilor mai mari în comparație cu omologii lor mai mici. Cu toate acestea, formarea LLM-urilor cu miliarde de parametri ridică provocări semnificative și necesită resurse de calcul considerabile. De exemplu, antrenarea unui model în stil GPT cu un trilion de parametri pe 20 de trilioane de jetoane necesită un calcul uimitor de 120 de milioane de exaflops. Această cercetare explorează strategii eficiente de antrenament distribuit pentru a extrage acest calcul din Frontier, primul supercomputer exascale din lume dedicat științei deschise. Activam și investigăm diferite tehnici de antrenament în paralel cu modele și date, cum ar fi paralelismul tensor, paralelismul conductelor și paralelismul datelor fragmentate, pentru a facilita antrenamentul unui model cu un trilion de parametri pe Frontier. Evaluăm empiric aceste tehnici și parametrii lor asociați pentru a determina impactul lor asupra amprentei memoriei, a latenței de comunicare și a eficienței de calcul a GPU-ului. Analizăm interacțiunea complexă dintre aceste tehnici și găsim o strategie pentru a le combina pentru a obține un randament ridicat prin reglarea hiperparametrului. Am identificat strategii eficiente pentru antrenarea LLM-urilor mari de dimensiuni diferite prin analiză empirică și reglarea hiperparametrilor. Pentru 22 de miliarde, 175 de miliarde și 1 trilion de parametri, am atins performanțe GPU de 38.38%36.14%, și 31.96%, respectiv. Pentru antrenamentul modelului cu parametri 175 de miliarde și modelului cu parametrii 1 trilion, am realizat 100% eficiență de scalare slabă pe GPU-urile MI1024X 3072 și, respectiv, 250. De asemenea, am obținut o eficiență puternică de scalare a 89% și 87% pentru aceste două modele.”

Găsi lucrare tehnică aici. Publicat în decembrie 2023 (preprint).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang și Prasanna Balaprakash. „Optimizarea instruirii distribuite pe Frontier pentru modele lingvistice mari.” arXiv preprint arXiv:2312.12705 (2023).

Lecturi suplimentare
AI Ras To the Edge
Inferențele și unele antrenamente sunt transferate pe dispozitive mai mici, pe măsură ce AI se răspândește la noi aplicații.

Timestamp-ul:

Mai mult de la Semi Inginerie