Melatih Model LLM Besar Dengan Parameter Miliaran Hingga Triliun Pada Superkomputer Frontier ORNL

Diterbitkan Ulang Oleh Plato

Followers: 0

Makalah teknis berjudul “Optimizing Distributed Training on Frontier for Large Language Models” diterbitkan oleh para peneliti di Oak Ridge National Laboratory (ORNL) dan Universite Paris-Saclay.

Abstrak:

“Model bahasa besar (LLM) telah menunjukkan keberhasilan luar biasa sebagai model dasar, memberikan manfaat bagi berbagai aplikasi hilir melalui penyempurnaan. Studi terbaru tentang penskalaan kerugian telah menunjukkan kinerja yang lebih unggul dari LLM yang lebih besar dibandingkan dengan LLM yang lebih kecil. Namun demikian, pelatihan LLM dengan miliaran parameter menimbulkan tantangan yang signifikan dan memerlukan sumber daya komputasi yang besar. Misalnya, melatih model gaya GPT dengan satu triliun parameter pada 20 triliun token memerlukan komputasi sebesar 120 juta exaflops. Penelitian ini mengeksplorasi strategi pelatihan terdistribusi yang efisien untuk mengekstraksi komputasi ini dari Frontier, superkomputer exascale pertama di dunia yang didedikasikan untuk sains terbuka. Kami mengaktifkan dan menyelidiki berbagai teknik pelatihan paralel model dan data, seperti paralelisme tensor, paralelisme pipeline, dan paralelisme data sharded, untuk memfasilitasi pelatihan model triliun parameter di Frontier. Kami menilai secara empiris teknik-teknik ini dan parameter terkaitnya untuk menentukan dampaknya terhadap jejak memori, latensi komunikasi, dan efisiensi komputasi GPU. Kami menganalisis interaksi kompleks di antara teknik-teknik ini dan menemukan strategi untuk menggabungkannya guna mencapai throughput tinggi melalui penyetelan hyperparameter. Kami telah mengidentifikasi strategi yang efisien untuk melatih LLM besar dengan berbagai ukuran melalui analisis empiris dan penyetelan hyperparameter. Untuk parameter 22 Miliar, 175 Miliar, dan 1 Triliun, kami mencapai throughput GPU sebesar 38.38%, 36.14%, dan 31.96%, masing-masing. Untuk pelatihan model parameter 175 Miliar dan model parameter 1 Triliun, kami mencapainya 100% efisiensi penskalaan yang lemah pada masing-masing GPU 1024 dan 3072 MI250X. Kami juga mencapai efisiensi penskalaan yang kuat 89% dan 87% untuk kedua model ini.”

Cari makalah teknis di sini. Diterbitkan Desember 2023 (pracetak).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang, dan Prasanna Balaprakash. “Mengoptimalkan Pelatihan Terdistribusi di Frontier untuk Model Bahasa Besar.” arXiv pracetak arXiv:2312.12705 (2023).

Selanjutnya Membaca
AI Berlomba Menuju Keunggulan
Inferensi dan beberapa pelatihan didorong ke perangkat yang lebih kecil seiring penyebaran AI ke aplikasi baru.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://semiengineering.com/training-large-llm-models-with-billions-to-trillion-parameters-on-ornls-frontier-supercomputer/

Stempel Waktu: Januari 16, 2024

Stempel Waktu: April 13, 2023

Melatih Model LLM Besar Dengan Parameter Miliaran Hingga Triliun Pada Superkomputer Frontier ORNL

Diterbitkan Ulang Oleh Plato

Abstrak:

Lebih dari Semi Teknik

Serangan Power Side-Channel Berbasis SystemC Terhadap Akselerator AI (Univ. Lubeck)

Membangun Mobil Lebih Baik Lebih Cepat

Platform Perangkat Keras Untuk Robot yang Berkembang

Membangun Aplikasi Aktuator dan Sensor Generasi Berikutnya yang Aman dan Hemat Biaya Berdasarkan Arsitektur E/E Terbaru

Review Blog: 10 Jan.

FPGA Modular Membuat FPGA Lebih Mudah Digunakan

Bagian Penelitian: 23 Jan

Serangan Sisi-Saluran Mikroarsitektur Dan Pertahanan Pada RAM Non-Volatile

Arm Total Compute: Rekayasa Untuk Beban Kerja Besok

Chiplet: Diperlukan Lebih Banyak Standar

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun