Đào tạo các mô hình LLM lớn với hàng tỷ đến nghìn tỷ tham số trên siêu máy tính biên giới của ORNL

Đào tạo các mô hình LLM lớn với hàng tỷ đến nghìn tỷ tham số trên siêu máy tính biên giới của ORNL

Nút nguồn: 3065936

Một bài viết kỹ thuật có tiêu đề “Tối ưu hóa đào tạo phân tán trên biên giới cho các mô hình ngôn ngữ lớn” đã được xuất bản bởi các nhà nghiên cứu tại Phòng thí nghiệm quốc gia Oak Ridge (ORNL) và Đại học Paris-Saclay.

Tóm tắt:

“Các mô hình ngôn ngữ lớn (LLM) đã chứng tỏ thành công đáng kể với tư cách là mô hình nền tảng, mang lại lợi ích cho nhiều ứng dụng hạ nguồn khác nhau thông qua việc tinh chỉnh. Các nghiên cứu gần đây về tỷ lệ tổn thất đã chứng minh hiệu suất vượt trội của LLM lớn hơn so với các LLM nhỏ hơn. Tuy nhiên, việc đào tạo LLM với hàng tỷ tham số đặt ra những thách thức đáng kể và đòi hỏi nguồn lực tính toán đáng kể. Ví dụ: đào tạo mô hình kiểu GPT một nghìn tỷ tham số trên 20 nghìn tỷ mã thông báo yêu cầu 120 triệu exaflop tính toán đáng kinh ngạc. Nghiên cứu này khám phá các chiến lược đào tạo phân tán hiệu quả để trích xuất tính toán này từ Frontier, siêu máy tính exascale đầu tiên trên thế giới dành riêng cho khoa học mở. Chúng tôi kích hoạt và điều tra các kỹ thuật đào tạo song song dữ liệu và mô hình khác nhau, chẳng hạn như song song tensor, song song đường ống và song song dữ liệu phân chia, để tạo điều kiện đào tạo mô hình nghìn tỷ tham số trên Frontier. Chúng tôi đánh giá theo kinh nghiệm các kỹ thuật này và các tham số liên quan của chúng để xác định tác động của chúng đến dung lượng bộ nhớ, độ trễ giao tiếp và hiệu suất tính toán của GPU. Chúng tôi phân tích sự tương tác phức tạp giữa các kỹ thuật này và tìm ra chiến lược kết hợp chúng để đạt được thông lượng cao thông qua điều chỉnh siêu tham số. Chúng tôi đã xác định các chiến lược hiệu quả để đào tạo LLM lớn với quy mô khác nhau thông qua phân tích thực nghiệm và điều chỉnh siêu tham số. Đối với các tham số 22 tỷ, 175 tỷ và 1 nghìn tỷ, chúng tôi đã đạt được thông lượng GPU là 38.38%36.14%và 31.96%, tương ứng. Đối với việc huấn luyện mô hình tham số 175 tỷ và mô hình tham số 1 nghìn tỷ, chúng tôi đã đạt được 100% hiệu suất mở rộng yếu trên GPU 1024 và 3072 MI250X tương ứng. Chúng tôi cũng đạt được hiệu quả mở rộng quy mô mạnh mẽ của 89% và 87% cho hai mô hình này.”

Tìm giấy kỹ thuật tại đây. Được xuất bản vào tháng 2023 năm XNUMX (bản in trước).

Dash, Sajal, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang và Prasanna Balaprakash. “Tối ưu hóa đào tạo phân tán trên biên giới cho các mô hình ngôn ngữ lớn.” bản in trước arXiv arXiv:2312.12705 (2023).

Đọc thêm
AI chạy đua đến tận cùng
Suy luận và một số hoạt động đào tạo đang được đẩy sang các thiết bị nhỏ hơn khi AI lan rộng sang các ứng dụng mới.

Dấu thời gian:

Thêm từ Bán kỹ thuật