Развертывание и использование многоплатформенной платформы глубокого обучения в Kubernetes.

Исходный узел: 1580762

Описание

Как специалист по глубокому обучению, вам нужна надежность и масштабируемость при организации обучения. Кроме того, вам хотелось бы сделать это единообразно для нескольких библиотек. С помощью Fabric for Deep Learning (FfDL) в Kubernetes вы можете добиться этого, предоставив пользователям возможность использовать библиотеки глубокого обучения, такие как Caffe, Torch и TensorFlow, в облаке, гибко и с минимальными усилиями. Платформа использует уровень распределения и оркестровки, который облегчает обучение на больших объемах данных за разумное время на всех вычислительных узлах. Уровень предоставления ресурсов обеспечивает гибкое управление заданиями на гетерогенных ресурсах, таких как графические процессоры (GPU) и центральные процессоры (CPU), в облаке инфраструктуры как услуги (IaaS).

Обзор

Обучение глубоких нейронных сетей, известное как глубокое обучение (часть методов машинного обучения), является очень сложным и требует больших вычислительных ресурсов. Типичный пользователь глубокого обучения излишне знакомится с деталями базовой аппаратной и программной инфраструктуры, включая настройку дорогих компьютеров с графическим процессором, установку библиотек глубокого обучения и управление заданиями во время выполнения для обработки сбоев и восстановления. Несмотря на простоту получения оборудования из облаков IaaS и почасовую оплату, пользователю по-прежнему необходимо управлять этими машинами, устанавливать необходимые библиотеки и обеспечивать отказоустойчивость заданий по обучению глубокому обучению.

Именно здесь кроется возможность глубокого обучения как услуги. В этом шаблоне кода мы покажем вам, как развернуть Fabric глубокого обучения в Kubernetes. Используя собственные облачные архитектурные артефакты, такие как Kubernetes, микросервисы, диаграммы Helm и объектное хранилище, мы покажем вам, как развертывать и использовать Fabric глубокого обучения. Эта Fabric охватывает несколько механизмов глубокого обучения, таких как TensorFlow, Caffe и PyTorch. Он сочетает в себе гибкость, простоту использования и экономичность облачного сервиса с возможностями глубокого обучения. Он покажется вам простым в использовании, а с помощью REST API вы сможете настроить обучение с использованием различных ресурсов в соответствии с требованиями пользователя или бюджетом. Позвольте пользователям сосредоточиться на глубоком обучении и приложениях, а не на ошибках.

Поток

поток

  1. Развертыватель FfDL развертывает базу кода FfDL в кластере Kubernetes. Кластер Kubernetes настроен на использование графических процессоров, процессоров или того и другого и имеет доступ к S3-совместимому объектному хранилищу. Если не указано, создается локально моделируемый модуль S3.
  2. После развертывания специалист по данным загружает данные обучения модели в хранилище объектов, совместимое с S3. FfDL предполагает, что данные уже находятся в необходимом формате, предписанном различными платформами глубокого обучения.
  3. Пользователь создает файл манифеста модели FfDL. Файл манифеста содержит различные поля, описывающие модель в FfDL, информацию о хранилище ее объектов, требования к ресурсам и несколько аргументов (включая гиперпараметры), которые необходимы для выполнения модели во время обучения и тестирования. Затем пользователь взаимодействует с FfDL, используя CLI/SDK или пользовательский интерфейс для развертывания файла манифеста модели FfDL с файлом определения модели. Пользователь запускает задание обучения и следит за его ходом.
  4. Пользователь загружает обученную модель и связанные с ней журналы после завершения задания обучения.

инструкции

Подробные инструкции по этому шаблону можно найти в README. Шаги покажут вам, как:

  1. Компилируйте, кодируйте и создавайте образы Docker.
  2. Установите компоненты FfDL с помощью Helm Install.
  3. Запустите скрипт, чтобы настроить Grafana для мониторинга FfDL.
  4. Получите конечные точки Grafana, веб-интерфейса FfDL и API REST FfDL.
  5. Запустите несколько простых заданий для обучения модели сверточной сети с помощью TensorFlow и Caffe.

Источник: https://developer.ibm.com/patterns/deploy-and-use-a-multi-framework-deep-learning-platform-on-kubernetes/

Отметка времени:

Больше от Разработчик IBM