Розгорніть і використовуйте мультифреймворкову платформу глибокого навчання на Kubernetes

Вихідний вузол: 1580762

Опис

Як фахівець із глибокого навчання, ви хочете надійності та масштабованості під час організації своїх навчальних завдань. Крім того, ви хотіли б зробити це узгоджено в кількох бібліотеках. Завдяки Fabric for Deep Learning (FfDL) на Kubernetes ви можете досягти цього, надавши користувачам можливість використовувати бібліотеки глибокого навчання, такі як Caffe, Torch і TensorFlow, у хмарі надійним способом із мінімальними зусиллями. Платформа використовує рівень розподілу та оркестровки, який полегшує навчання з великої кількості даних за розумний проміжок часу на обчислювальних вузлах. Рівень надання ресурсів забезпечує гнучке керування завданнями на різнорідних ресурсах, таких як графічні процесори (GPU) і центральні процесори (CPU), у хмарі інфраструктури як послуги (IaaS).

огляд

Навчання глибоких нейронних мереж, відомих як глибоке навчання (частина методів машинного навчання), є дуже складним і потребує обчислень. Типовий користувач глибокого навчання без потреби стикається з деталями базової апаратної та програмної інфраструктури, включаючи налаштування дорогих графічних процесорів, встановлення бібліотек глибокого навчання та керування завданнями під час виконання для обробки збоїв і відновлення. Незважаючи на легкість отримання апаратного забезпечення з хмар IaaS і погодинну оплату, користувачеві все одно потрібно керувати цими машинами, інсталювати необхідні бібліотеки та забезпечувати відмовостійкість навчальних завдань із глибокого навчання.

Саме тут криється можливість глибокого навчання як послуги. У цьому шаблоні коду ми покажемо вам, як розгорнути Fabric глибокого навчання на Kubernetes. Використовуючи власні хмарні архітектурні артефакти, такі як Kubernetes, мікросервіси, діаграми Helm і сховище об’єктів, ми покажемо вам, як розгортати та використовувати Fabric глибокого навчання. Ця Fabric охоплює кілька механізмів глибокого навчання, таких як TensorFlow, Caffe та PyTorch. Він поєднує в собі гнучкість, простоту використання та економічність хмарного сервісу з можливостями глибокого навчання. Ви побачите, що він простий у використанні, а за допомогою REST API ви зможете налаштувати навчання за допомогою різних ресурсів відповідно до вимог користувача чи бюджету. Дозвольте користувачам зосередитися на глибокому навчанні та програмах, а не на помилках.

Потік

потік

  1. Програма розгортання FfDL розгортає базу коду FfDL у кластері Kubernetes. Кластер Kubernetes налаштований на використання GPU, CPU або обох і має доступ до S3-сумісного сховища об’єктів. Якщо не вказано, створюється локально змодельований модуль S3.
  2. Після розгортання спеціаліст із обробки даних завантажує навчальні дані моделі до S3-сумісного сховища об’єктів. FfDL припускає, що дані вже мають необхідний формат, як це передбачено різними фреймворками глибокого навчання.
  3. Користувач створює файл маніфесту моделі FfDL. Файл маніфесту містить різні поля, які описують модель у FfDL, інформацію про сховище об’єктів, вимоги до ресурсів і кілька аргументів (включно з гіперпараметрами), необхідних для виконання моделі під час навчання та тестування. Потім користувач взаємодіє з FfDL за допомогою CLI/SDK або інтерфейсу користувача, щоб розгорнути файл маніфесту моделі FfDL із файлом визначення моделі. Користувач запускає навчальну роботу та стежить за її ходом.
  4. Після завершення навчання користувач завантажує навчену модель і пов’язані журнали.

інструкції

Знайдіть докладні кроки для цього шаблону в README. Ці кроки покажуть вам, як:

  1. Компілюйте та кодуйте та створюйте образи Docker.
  2. Встановіть компоненти FfDL за допомогою helm install.
  3. Запустіть сценарій, щоб налаштувати Grafana для моніторингу FfDL.
  4. Отримайте кінцеві точки Grafana, FfDL Web UI та FfDL REST API.
  5. Виконайте кілька простих завдань, щоб навчити модель згорткової мережі за допомогою TensorFlow і Caffe.

Джерело: https://developer.ibm.com/patterns/deploy-and-use-a-multi-framework-deep-learning-platform-on-kubernetes/

Часова мітка:

Більше від Розробник IBM