Технический документ под названием «Оптимизация распределенного обучения на границе для больших языковых моделей» был опубликован исследователями из Национальной лаборатории Ок-Ридж (ORNL) и Университета Париж-Сакле.
Абстрактные:
«Модели больших языков (LLM) продемонстрировали замечательный успех в качестве основополагающих моделей, принося пользу различным последующим приложениям посредством тонкой настройки. Недавние исследования по масштабированию потерь продемонстрировали превосходство более крупных LLM по сравнению с их меньшими аналогами. Тем не менее, обучение LLM с миллиардами параметров представляет собой серьезную проблему и требует значительных вычислительных ресурсов. Например, обучение модели в стиле GPT с одним триллионом параметров на 20 триллионах токенов требует ошеломляющих 120 миллионов эксафлопс вычислений. В этом исследовании изучаются эффективные стратегии распределенного обучения для извлечения этих вычислений из Frontier, первого в мире экзафлопсного суперкомпьютера, посвященного открытой науке. Мы используем и исследуем различные методы параллельного обучения моделей и данных, такие как тензорный параллелизм, конвейерный параллелизм и сегментированный параллелизм данных, чтобы облегчить обучение модели с триллионом параметров на Frontier. Мы эмпирически оцениваем эти методы и связанные с ними параметры, чтобы определить их влияние на объем памяти, задержку связи и вычислительную эффективность графического процессора. Мы анализируем сложное взаимодействие между этими методами и находим стратегию их объединения для достижения высокой производительности за счет настройки гиперпараметров. Мы определили эффективные стратегии обучения больших LLM разных размеров посредством эмпирического анализа и настройки гиперпараметров. Для 22 миллиардов, 175 миллиардов и 1 триллиона параметров мы достигли пропускной способности графического процессора 38.38%, 36.14%и 31.96%, соответственно. Для обучения модели с 175 миллиардами параметров и модели с 1 триллионом параметров мы достигли 100% слабая эффективность масштабирования на графических процессорах MI1024X 3072 и 250 соответственно. Мы также добились высокой эффективности масштабирования 89% и 87% для этих двух моделей».
Найдите технический документ здесь. Опубликовано в декабре 2023 г. (препринт).
Даш, Саджал, Исаак Лингаас, Цзюньци Инь, Сяо Ван, Ромен Эгель, Гоцзин Конг, Фейи Ван и Прасанна Балапракаш. «Оптимизация распределенного обучения на границе для больших языковых моделей». Препринт arXiv arXiv:2312.12705 (2023).
Дальнейшее чтение
Искусственный интеллект стремится к пределу
По мере распространения ИИ в новых приложениях обработка выводов и некоторое обучение переносится на устройства меньшего размера.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://semiengineering.com/training-large-llm-models-with-billions-to-trillion-parameters-on-ornls-frontier-supercomputer/
- 1
- 120
- 20
- 2023
- 22
- a
- Достигать
- достигнутый
- AI
- причислены
- среди
- анализ
- анализировать
- и
- Приложения
- МЫ
- AS
- оценить
- связанный
- At
- не являетесь
- пользу
- миллиард
- миллиарды
- by
- проблемы
- объединять
- Связь
- сравненный
- комплекс
- вычисление
- вычислительный
- значительный
- коллегами
- данным
- Декабрь
- преданный
- убивают
- Определять
- Устройства
- распределенный
- распределенное обучение
- Эффективность
- затрат
- эффективный
- включить
- пример
- исследует
- извлечение
- содействовал
- Найдите
- Во-первых,
- след
- Что касается
- основополагающие
- от
- Граница
- Пограничный суперкомпьютер
- GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
- Графические процессоры
- Есть
- здесь
- High
- HTTPS
- Настройка гиперпараметра
- идентифицированный
- Влияние
- in
- исследовать
- JPG
- лаборатория
- язык
- большой
- больше
- Задержка
- от
- математике
- Память
- миллиона
- модель
- Модели
- национальный
- Тем не менее
- Новые
- дуб
- Национальная лаборатория Ок-Ридж
- of
- on
- ONE
- открытый
- ОРНЛ
- бумага & картон
- Параллельные
- параметр
- параметры
- производительность
- трубопровод
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- представляет
- опубликованный
- толкнул
- скачки
- последний
- замечательный
- требуется
- исследованиям
- исследователи
- Полезные ресурсы
- соответственно
- Ромен
- s
- масштабирование
- Наука
- сегментированный
- значительный
- Размеры
- меньше
- некоторые
- Спреды
- ошеломляющий
- стратегий
- Стратегия
- сильный
- исследования
- успех
- такие
- суперкомпьютер
- топ
- Технический
- снижения вреда
- Ассоциация
- их
- Их
- Эти
- этой
- Через
- пропускная способность
- титулованный
- в
- Лексемы
- Обучение
- Триллион
- два
- различный
- Различная
- Ван
- законопроект
- we
- мире
- сяо
- зефирнет