Melatih Model LLM Besar Dengan Parameter Miliaran Hingga Triliun Pada Superkomputer Frontier ORNL

Melatih Model LLM Besar Dengan Parameter Miliaran Hingga Triliun Pada Superkomputer Frontier ORNL

Node Sumber: 3065936

Makalah teknis berjudul “Optimizing Distributed Training on Frontier for Large Language Models” diterbitkan oleh para peneliti di Oak Ridge National Laboratory (ORNL) dan Universite Paris-Saclay.

Abstrak:

“Model bahasa besar (LLM) telah menunjukkan keberhasilan luar biasa sebagai model dasar, memberikan manfaat bagi berbagai aplikasi hilir melalui penyempurnaan. Studi terbaru tentang penskalaan kerugian telah menunjukkan kinerja yang lebih unggul dari LLM yang lebih besar dibandingkan dengan LLM yang lebih kecil. Namun demikian, pelatihan LLM dengan miliaran parameter menimbulkan tantangan yang signifikan dan memerlukan sumber daya komputasi yang besar. Misalnya, melatih model gaya GPT dengan satu triliun parameter pada 20 triliun token memerlukan komputasi sebesar 120 juta exaflops. Penelitian ini mengeksplorasi strategi pelatihan terdistribusi yang efisien untuk mengekstraksi komputasi ini dari Frontier, superkomputer exascale pertama di dunia yang didedikasikan untuk sains terbuka. Kami mengaktifkan dan menyelidiki berbagai teknik pelatihan paralel model dan data, seperti paralelisme tensor, paralelisme pipeline, dan paralelisme data sharded, untuk memfasilitasi pelatihan model triliun parameter di Frontier. Kami menilai secara empiris teknik-teknik ini dan parameter terkaitnya untuk menentukan dampaknya terhadap jejak memori, latensi komunikasi, dan efisiensi komputasi GPU. Kami menganalisis interaksi kompleks di antara teknik-teknik ini dan menemukan strategi untuk menggabungkannya guna mencapai throughput tinggi melalui penyetelan hyperparameter. Kami telah mengidentifikasi strategi yang efisien untuk melatih LLM besar dengan berbagai ukuran melalui analisis empiris dan penyetelan hyperparameter. Untuk parameter 22 Miliar, 175 Miliar, dan 1 Triliun, kami mencapai throughput GPU sebesar 38.38%36.14%, dan 31.96%, masing-masing. Untuk pelatihan model parameter 175 Miliar dan model parameter 1 Triliun, kami mencapainya 100% efisiensi penskalaan yang lemah pada masing-masing GPU 1024 dan 3072 MI250X. Kami juga mencapai efisiensi penskalaan yang kuat 89% dan 87% untuk kedua model ini.”

Cari makalah teknis di sini. Diterbitkan Desember 2023 (pracetak).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang, dan Prasanna Balaprakash. “Mengoptimalkan Pelatihan Terdistribusi di Frontier untuk Model Bahasa Besar.” arXiv pracetak arXiv:2312.12705 (2023).

Selanjutnya Membaca
AI Berlomba Menuju Keunggulan
Inferensi dan beberapa pelatihan didorong ke perangkat yang lebih kecil seiring penyebaran AI ke aplikasi baru.

Stempel Waktu:

Lebih dari Semi Teknik