Trenowanie dużych modeli LLM z miliardami do bilionów parametrów na superkomputerze Frontier ORNL

Opublikowane ponownie przez Plato

Obserwuje: 0

Naukowcy z Oak Ridge National Laboratory (ORNL) i Universite Paris-Saclay opublikowali artykuł techniczny zatytułowany „Optymalizacja rozproszonego szkolenia na granicy dla dużych modeli językowych”.

Abstrakcyjny:

„Duże modele językowe (LLM) wykazały się niezwykłym sukcesem jako modele podstawowe, przynosząc korzyści różnym dalszym aplikacjom poprzez precyzyjne dostrojenie. Ostatnie badania dotyczące skalowania strat wykazały lepszą wydajność większych LLM w porównaniu z ich mniejszymi odpowiednikami. Niemniej jednak szkolenie LLM z miliardami parametrów stwarza poważne wyzwania i wymaga znacznych zasobów obliczeniowych. Na przykład uczenie modelu w stylu GPT o jednym bilionie parametrów na 20 bilionach tokenów wymaga oszałamiających 120 milionów exaflopów obliczeń. W ramach tego badania analizowane są wydajne rozproszone strategie szkoleniowe w celu wyodrębnienia tych obliczeń z Frontier, pierwszego na świecie superkomputera eksaskalowego przeznaczonego do otwartej nauki. Umożliwiamy i badamy różne techniki uczenia równoległego modeli i danych, takie jak równoległość tensorów, równoległość potoków i równoległość danych podzielonych na fragmenty, aby ułatwić szkolenie modelu składającego się z bilionów parametrów na platformie Frontier. Empirycznie oceniamy te techniki i powiązane z nimi parametry, aby określić ich wpływ na wykorzystanie pamięci, opóźnienia w komunikacji i wydajność obliczeniową procesora graficznego. Analizujemy złożone wzajemne oddziaływanie tych technik i znajdujemy strategię ich połączenia w celu osiągnięcia wysokiej przepustowości poprzez dostrajanie hiperparametrów. Zidentyfikowaliśmy skuteczne strategie szkolenia dużych LLM o różnej wielkości poprzez analizę empiryczną i dostrajanie hiperparametrów. Dla parametrów 22 miliardów, 175 miliardów i 1 biliona osiągnęliśmy przepustowość procesora graficznego wynoszącą 38.38%, 36.14%, 31.96%odpowiednio. Osiągnęliśmy to w przypadku uczenia modelu 175 miliardów parametrów i modelu 1 biliona parametrów 100% słaba wydajność skalowania odpowiednio na procesorach graficznych 1024 i 3072 MI250X. Osiągnęliśmy również dużą wydajność skalowania 89% i 87% dla tych dwóch modeli.”

Znajdź papier techniczny tutaj. Opublikowano w grudniu 2023 r. (przeddruk).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang i Prasanna Balaprakash. „Optymalizacja rozproszonego szkolenia na granicy dla dużych modeli językowych”. Przedruk arXiv arXiv:2312.12705 (2023).

Inne dokumenty
AI ściga się do krawędzi
W miarę rozprzestrzeniania się sztucznej inteligencji na nowe zastosowania, wnioskowanie i niektóre szkolenia są przenoszone na mniejsze urządzenia.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://semiengineering.com/training-large-llm-models-with-billions-to-trillion-parameters-on-ornls-frontier-supercomputer/

Znak czasu: 16 stycznia 2024 r.

Znak czasu: Kwiecień 13, 2023

Trenowanie dużych modeli LLM z miliardami do bilionów parametrów na superkomputerze Frontier ORNL

Opublikowane ponownie przez Plato

Abstrakcyjny:

Więcej z Inżynieria semi

Ataki bocznokanałowe mocy oparte na SystemC na akceleratory AI (Uniwersytet w Lubece)

Szybsze budowanie lepszych samochodów

Platforma sprzętowa dla ewoluujących robotów

Twórz bezpieczne i ekonomiczne aplikacje siłowników i czujników nowej generacji w oparciu o najnowsze architektury E/E

Recenzja bloga: 10 stycznia

Modułowy układ FPGA sprawia, że układ FPGA jest łatwiejszy w użyciu

Bity badawcze: 23 stycznia

Mikroarchitektoniczne ataki boczne i mechanizmy obronne na nieulotnej pamięci RAM

Arm Total Compute: inżynieria dla przyszłych obciążeń

Chiplety: potrzeba więcej standardów

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto