Обучение больших моделей LLM с миллиардами и триллионами параметров на передовом суперкомпьютере ORNL

Обучение больших моделей LLM с миллиардами и триллионами параметров на передовом суперкомпьютере ORNL

Исходный узел: 3065936

Технический документ под названием «Оптимизация распределенного обучения на границе для больших языковых моделей» был опубликован исследователями из Национальной лаборатории Ок-Ридж (ORNL) и Университета Париж-Сакле.

Абстрактные:

«Модели больших языков (LLM) продемонстрировали замечательный успех в качестве основополагающих моделей, принося пользу различным последующим приложениям посредством тонкой настройки. Недавние исследования по масштабированию потерь продемонстрировали превосходство более крупных LLM по сравнению с их меньшими аналогами. Тем не менее, обучение LLM с миллиардами параметров представляет собой серьезную проблему и требует значительных вычислительных ресурсов. Например, обучение модели в стиле GPT с одним триллионом параметров на 20 триллионах токенов требует ошеломляющих 120 миллионов эксафлопс вычислений. В этом исследовании изучаются эффективные стратегии распределенного обучения для извлечения этих вычислений из Frontier, первого в мире экзафлопсного суперкомпьютера, посвященного открытой науке. Мы используем и исследуем различные методы параллельного обучения моделей и данных, такие как тензорный параллелизм, конвейерный параллелизм и сегментированный параллелизм данных, чтобы облегчить обучение модели с триллионом параметров на Frontier. Мы эмпирически оцениваем эти методы и связанные с ними параметры, чтобы определить их влияние на объем памяти, задержку связи и вычислительную эффективность графического процессора. Мы анализируем сложное взаимодействие между этими методами и находим стратегию их объединения для достижения высокой производительности за счет настройки гиперпараметров. Мы определили эффективные стратегии обучения больших LLM разных размеров посредством эмпирического анализа и настройки гиперпараметров. Для 22 миллиардов, 175 миллиардов и 1 триллиона параметров мы достигли пропускной способности графического процессора 38.38%36.14%и 31.96%, соответственно. Для обучения модели с 175 миллиардами параметров и модели с 1 триллионом параметров мы достигли 100% слабая эффективность масштабирования на графических процессорах MI1024X 3072 и 250 соответственно. Мы также добились высокой эффективности масштабирования 89% и 87% для этих двух моделей».

Найдите технический документ здесь. Опубликовано в декабре 2023 г. (препринт).

Даш, Саджал, Исаак Лингаас, Цзюньци Инь, Сяо Ван, Ромен Эгель, Гоцзин Конг, Фейи Ван и Прасанна Балапракаш. «Оптимизация распределенного обучения на границе для больших языковых моделей». Препринт arXiv arXiv:2312.12705 (2023).

Дальнейшее чтение
Искусственный интеллект стремится к пределу
По мере распространения ИИ в новых приложениях обработка выводов и некоторое обучение переносится на устройства меньшего размера.

Отметка времени:

Больше от Полуинжиниринг