Usposabljanje velikih LLM modelov z milijardami do trilijoni parametrov na mejnem superračunalniku ORNL

Usposabljanje velikih LLM modelov z milijardami do trilijoni parametrov na mejnem superračunalniku ORNL

Izvorno vozlišče: 3065936

Tehnični dokument z naslovom »Optimiziranje porazdeljenega usposabljanja na meji za velike jezikovne modele« so objavili raziskovalci v Oak Ridge National Laboratory (ORNL) in Universite Paris-Saclay.

Povzetek:

»Veliki jezikovni modeli (LLM) so se izkazali za izjemen uspeh kot temeljni modeli, ki s finim prilagajanjem koristijo različnim nadaljnjim aplikacijam. Nedavne študije o skaliranju izgub so pokazale boljše delovanje večjih LLM v primerjavi z njihovimi manjšimi primerki. Kljub temu predstavlja usposabljanje LLM z milijardami parametrov znatne izzive in zahteva znatna računalniška sredstva. Na primer, usposabljanje modela GPT z enim bilijonom parametrov na 20 bilijonih žetonov zahteva osupljivih 120 milijonov eksaflopov računanja. Ta raziskava raziskuje učinkovite porazdeljene strategije usposabljanja za pridobivanje tega računanja iz Frontierja, prvega svetovnega superračunalnika v velikosti eksa, namenjenega odprti znanosti. Omogočamo in raziskujemo različne tehnike vzporednega usposabljanja modelov in podatkov, kot so paralelizem tenzorjev, paralelizem cevovodov in paralelizem razdeljenih podatkov, da olajšamo usposabljanje modela z bilijoni parametrov na Frontierju. Empirično ocenjujemo te tehnike in z njimi povezane parametre, da ugotovimo njihov vpliv na pomnilniški odtis, zakasnitev komunikacije in računalniško učinkovitost GPE. Analiziramo zapleteno medsebojno delovanje med temi tehnikami in najdemo strategijo za njihovo kombiniranje, da dosežemo visoko prepustnost s pomočjo prilagajanja hiperparametrov. Identificirali smo učinkovite strategije za usposabljanje velikih LLM različnih velikosti z empirično analizo in prilagajanjem hiperparametrov. Za 22 milijard, 175 milijard in 1 bilijon parametrov smo dosegli GPE prepustnost 38.38%36.14%in 31.96%, oz. Za usposabljanje modela parametrov 175 milijard in modela parametrov 1 bilijon smo dosegli 100% šibka učinkovitost skaliranja na GPU 1024 oziroma 3072 MI250X. Dosegli smo tudi visoko učinkovitost skaliranja 89% in 87% za ta dva modela."

Najdi tehnični papir tukaj. Izdano decembra 2023 (prednatis).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang in Prasanna Balaprakash. »Optimizacija porazdeljenega usposabljanja na Frontier za velike jezikovne modele.« arXiv prednatis arXiv:2312.12705 (2023).

Nadaljnje branje
AI dirka do roba
Sklepanje in nekaj usposabljanja se prenašata na manjše naprave, ko se AI širi na nove aplikacije.

Časovni žig:

Več od Semi Engineering