Обучение больших моделей LLM с миллиардами и триллионами параметров на передовом суперкомпьютере ORNL

Переиздано Платоном

Читают: 0

Технический документ под названием «Оптимизация распределенного обучения на границе для больших языковых моделей» был опубликован исследователями из Национальной лаборатории Ок-Ридж (ORNL) и Университета Париж-Сакле.

Абстрактные:

«Модели больших языков (LLM) продемонстрировали замечательный успех в качестве основополагающих моделей, принося пользу различным последующим приложениям посредством тонкой настройки. Недавние исследования по масштабированию потерь продемонстрировали превосходство более крупных LLM по сравнению с их меньшими аналогами. Тем не менее, обучение LLM с миллиардами параметров представляет собой серьезную проблему и требует значительных вычислительных ресурсов. Например, обучение модели в стиле GPT с одним триллионом параметров на 20 триллионах токенов требует ошеломляющих 120 миллионов эксафлопс вычислений. В этом исследовании изучаются эффективные стратегии распределенного обучения для извлечения этих вычислений из Frontier, первого в мире экзафлопсного суперкомпьютера, посвященного открытой науке. Мы используем и исследуем различные методы параллельного обучения моделей и данных, такие как тензорный параллелизм, конвейерный параллелизм и сегментированный параллелизм данных, чтобы облегчить обучение модели с триллионом параметров на Frontier. Мы эмпирически оцениваем эти методы и связанные с ними параметры, чтобы определить их влияние на объем памяти, задержку связи и вычислительную эффективность графического процессора. Мы анализируем сложное взаимодействие между этими методами и находим стратегию их объединения для достижения высокой производительности за счет настройки гиперпараметров. Мы определили эффективные стратегии обучения больших LLM разных размеров посредством эмпирического анализа и настройки гиперпараметров. Для 22 миллиардов, 175 миллиардов и 1 триллиона параметров мы достигли пропускной способности графического процессора 38.38%, 36.14%и 31.96%, соответственно. Для обучения модели с 175 миллиардами параметров и модели с 1 триллионом параметров мы достигли 100% слабая эффективность масштабирования на графических процессорах MI1024X 3072 и 250 соответственно. Мы также добились высокой эффективности масштабирования 89% и 87% для этих двух моделей».

Найдите технический документ здесь. Опубликовано в декабре 2023 г. (препринт).

Даш, Саджал, Исаак Лингаас, Цзюньци Инь, Сяо Ван, Ромен Эгель, Гоцзин Конг, Фейи Ван и Прасанна Балапракаш. «Оптимизация распределенного обучения на границе для больших языковых моделей». Препринт arXiv arXiv:2312.12705 (2023).

Дальнейшее чтение
Искусственный интеллект стремится к пределу
По мере распространения ИИ в новых приложениях обработка выводов и некоторое обучение переносится на устройства меньшего размера.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://semiengineering.com/training-large-llm-models-with-billions-to-trillion-parameters-on-ornls-frontier-supercomputer/

Отметка времени: 16 января 2024

Отметка времени: 13 Апрель, 2023

Обучение больших моделей LLM с миллиардами и триллионами параметров на передовом суперкомпьютере ORNL

Переиздано Платоном

Абстрактные:

Больше от Полуинжиниринг

Атаки по боковым каналам мощности на базе SystemC против ускорителей искусственного интеллекта (Университет Любека)

Создание лучших автомобилей быстрее

Аппаратная платформа для развивающихся роботов

Создавайте безопасные и экономичные приложения для приводов и датчиков нового поколения на основе новейших электронно-электронных архитектур.

Обзор блога: 10 января

Модульная FPGA упрощает использование FPGA

Исследовательские биты: 23 января

Микроархитектурные атаки по сторонним каналам и защита от энергонезависимой оперативной памяти

Arm Total Compute: разработка для рабочих нагрузок завтрашнего дня

Чиплеты: нужно больше стандартов

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись