Описание
Как специалист по глубокому обучению, вам нужна надежность и масштабируемость при организации обучения. Кроме того, вам хотелось бы сделать это единообразно для нескольких библиотек. С помощью Fabric for Deep Learning (FfDL) в Kubernetes вы можете добиться этого, предоставив пользователям возможность использовать библиотеки глубокого обучения, такие как Caffe, Torch и TensorFlow, в облаке, гибко и с минимальными усилиями. Платформа использует уровень распределения и оркестровки, который облегчает обучение на больших объемах данных за разумное время на всех вычислительных узлах. Уровень предоставления ресурсов обеспечивает гибкое управление заданиями на гетерогенных ресурсах, таких как графические процессоры (GPU) и центральные процессоры (CPU), в облаке инфраструктуры как услуги (IaaS).
Обзор
Обучение глубоких нейронных сетей, известное как глубокое обучение (часть методов машинного обучения), является очень сложным и требует больших вычислительных ресурсов. Типичный пользователь глубокого обучения излишне знакомится с деталями базовой аппаратной и программной инфраструктуры, включая настройку дорогих компьютеров с графическим процессором, установку библиотек глубокого обучения и управление заданиями во время выполнения для обработки сбоев и восстановления. Несмотря на простоту получения оборудования из облаков IaaS и почасовую оплату, пользователю по-прежнему необходимо управлять этими машинами, устанавливать необходимые библиотеки и обеспечивать отказоустойчивость заданий по обучению глубокому обучению.
Именно здесь кроется возможность глубокого обучения как услуги. В этом шаблоне кода мы покажем вам, как развернуть Fabric глубокого обучения в Kubernetes. Используя собственные облачные архитектурные артефакты, такие как Kubernetes, микросервисы, диаграммы Helm и объектное хранилище, мы покажем вам, как развертывать и использовать Fabric глубокого обучения. Эта Fabric охватывает несколько механизмов глубокого обучения, таких как TensorFlow, Caffe и PyTorch. Он сочетает в себе гибкость, простоту использования и экономичность облачного сервиса с возможностями глубокого обучения. Он покажется вам простым в использовании, а с помощью REST API вы сможете настроить обучение с использованием различных ресурсов в соответствии с требованиями пользователя или бюджетом. Позвольте пользователям сосредоточиться на глубоком обучении и приложениях, а не на ошибках.
Поток
- Развертыватель FfDL развертывает базу кода FfDL в кластере Kubernetes. Кластер Kubernetes настроен на использование графических процессоров, процессоров или того и другого и имеет доступ к S3-совместимому объектному хранилищу. Если не указано, создается локально моделируемый модуль S3.
- После развертывания специалист по данным загружает данные обучения модели в хранилище объектов, совместимое с S3. FfDL предполагает, что данные уже находятся в необходимом формате, предписанном различными платформами глубокого обучения.
- Пользователь создает файл манифеста модели FfDL. Файл манифеста содержит различные поля, описывающие модель в FfDL, информацию о хранилище ее объектов, требования к ресурсам и несколько аргументов (включая гиперпараметры), которые необходимы для выполнения модели во время обучения и тестирования. Затем пользователь взаимодействует с FfDL, используя CLI/SDK или пользовательский интерфейс для развертывания файла манифеста модели FfDL с файлом определения модели. Пользователь запускает задание обучения и следит за его ходом.
- Пользователь загружает обученную модель и связанные с ней журналы после завершения задания обучения.
инструкции
Подробные инструкции по этому шаблону можно найти в README. Шаги покажут вам, как:
- Компилируйте, кодируйте и создавайте образы Docker.
- Установите компоненты FfDL с помощью Helm Install.
- Запустите скрипт, чтобы настроить Grafana для мониторинга FfDL.
- Получите конечные точки Grafana, веб-интерфейса FfDL и API REST FfDL.
- Запустите несколько простых заданий для обучения модели сверточной сети с помощью TensorFlow и Caffe.
- доступ
- через
- дополнение
- уже
- API
- API
- Приложения
- Аргументы
- тело
- строить
- Графики
- облако
- Облако родное
- код
- комплекс
- Вычисление
- содержание
- данным
- ученый данных
- глубокое обучение
- глубокие нейронные сети
- различный
- Docker
- в течение
- Экономика
- выполнение
- ткань
- Поля
- Трансформируемость
- поток
- Фокус
- формат
- Отдаете
- GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
- Графические процессоры
- Аппаратные средства
- Как
- How To
- HTTPS
- IBM
- В том числе
- информация
- Инфраструктура
- IT
- работа
- Джобс
- Kubernetes
- большой
- запускает
- изучение
- Кредитное плечо
- в местном масштабе
- обучение с помощью машины
- Продукция
- управление
- модель
- Мониторинг
- сеть
- сетей
- нервный
- нейронные сети
- узлы
- Хранение объектов
- Возможность
- шаблон
- Платформа
- мощностью
- pytorch
- выздоровление
- Требования
- ресурс
- Полезные ресурсы
- ОТДЫХ
- Масштабируемость
- просто
- Software
- диск
- магазин
- tensorflow
- Тестирование
- время
- факел
- Обучение
- ui
- пользователей
- Web
- бы