Trenowanie dużych modeli LLM z miliardami do bilionów parametrów na superkomputerze Frontier ORNL

Trenowanie dużych modeli LLM z miliardami do bilionów parametrów na superkomputerze Frontier ORNL

Węzeł źródłowy: 3065936

Naukowcy z Oak Ridge National Laboratory (ORNL) i Universite Paris-Saclay opublikowali artykuł techniczny zatytułowany „Optymalizacja rozproszonego szkolenia na granicy dla dużych modeli językowych”.

Abstrakcyjny:

„Duże modele językowe (LLM) wykazały się niezwykłym sukcesem jako modele podstawowe, przynosząc korzyści różnym dalszym aplikacjom poprzez precyzyjne dostrojenie. Ostatnie badania dotyczące skalowania strat wykazały lepszą wydajność większych LLM w porównaniu z ich mniejszymi odpowiednikami. Niemniej jednak szkolenie LLM z miliardami parametrów stwarza poważne wyzwania i wymaga znacznych zasobów obliczeniowych. Na przykład uczenie modelu w stylu GPT o jednym bilionie parametrów na 20 bilionach tokenów wymaga oszałamiających 120 milionów exaflopów obliczeń. W ramach tego badania analizowane są wydajne rozproszone strategie szkoleniowe w celu wyodrębnienia tych obliczeń z Frontier, pierwszego na świecie superkomputera eksaskalowego przeznaczonego do otwartej nauki. Umożliwiamy i badamy różne techniki uczenia równoległego modeli i danych, takie jak równoległość tensorów, równoległość potoków i równoległość danych podzielonych na fragmenty, aby ułatwić szkolenie modelu składającego się z bilionów parametrów na platformie Frontier. Empirycznie oceniamy te techniki i powiązane z nimi parametry, aby określić ich wpływ na wykorzystanie pamięci, opóźnienia w komunikacji i wydajność obliczeniową procesora graficznego. Analizujemy złożone wzajemne oddziaływanie tych technik i znajdujemy strategię ich połączenia w celu osiągnięcia wysokiej przepustowości poprzez dostrajanie hiperparametrów. Zidentyfikowaliśmy skuteczne strategie szkolenia dużych LLM o różnej wielkości poprzez analizę empiryczną i dostrajanie hiperparametrów. Dla parametrów 22 miliardów, 175 miliardów i 1 biliona osiągnęliśmy przepustowość procesora graficznego wynoszącą 38.38%36.14%31.96%odpowiednio. Osiągnęliśmy to w przypadku uczenia modelu 175 miliardów parametrów i modelu 1 biliona parametrów 100% słaba wydajność skalowania odpowiednio na procesorach graficznych 1024 i 3072 MI250X. Osiągnęliśmy również dużą wydajność skalowania 89% i 87% dla tych dwóch modeli.”

Znajdź papier techniczny tutaj. Opublikowano w grudniu 2023 r. (przeddruk).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang i Prasanna Balaprakash. „Optymalizacja rozproszonego szkolenia na granicy dla dużych modeli językowych”. Przedruk arXiv arXiv:2312.12705 (2023).

Inne dokumenty
AI ściga się do krawędzi
W miarę rozprzestrzeniania się sztucznej inteligencji na nowe zastosowania, wnioskowanie i niektóre szkolenia są przenoszone na mniejsze urządzenia.

Znak czasu:

Więcej z Inżynieria semi