Implementați și utilizați o platformă de învățare profundă multi-cadru pe Kubernetes

Nodul sursă: 1580762

Descriere

În calitate de practicant în învățarea profundă, doriți fiabilitate și scalabilitate în timp ce vă orchestrați joburile de formare. În plus, ați dori să faceți acest lucru într-o manieră consecventă în mai multe biblioteci. Cu Fabric for Deep Learning (FfDL) pe Kubernetes, puteți realiza acest lucru oferind utilizatorilor posibilitatea de a utiliza biblioteci de deep learning, cum ar fi Caffe, Torch și TensorFlow în cloud, într-o manieră rezistentă, cu un efort minim. Platforma folosește un strat de distribuție și orchestrare care facilitează învățarea dintr-o cantitate mare de date într-o perioadă rezonabilă de timp între nodurile de calcul. Un nivel de furnizare a resurselor permite gestionarea flexibilă a sarcinilor pe resurse eterogene, cum ar fi unitățile de procesare grafică (GPU) și unități centrale de procesare (CPU), într-un cloud infrastructură ca serviciu (IaaS).

Descriere

Antrenarea rețelelor neuronale profunde, cunoscută sub denumirea de deep learning (parte a metodelor de învățare automată), este extrem de complexă și intensivă din punct de vedere computațional. Un utilizator obișnuit de deep learning este expus în mod inutil la detaliile infrastructurii hardware și software de bază, inclusiv configurarea mașinilor GPU scumpe, instalarea bibliotecilor de deep learning și gestionarea joburilor în timpul execuției pentru a gestiona eșecurile și recuperarea. În ciuda ușurinței de a obține hardware din cloud-urile IaaS și de a plăti la oră, utilizatorul trebuie în continuare să gestioneze acele mașini, să instaleze bibliotecile necesare și să asigure rezistența joburilor de formare de deep learning.

Aici se află oportunitatea învățării profunde ca serviciu. În acest model de cod, vă arătăm cum să implementați o fabrică de învățare profundă pe Kubernetes. Folosind artefacte arhitecturale native din cloud, cum ar fi Kubernetes, microservicii, diagramele Helm și stocarea obiectelor, vă arătăm cum să implementați și să utilizați o fabrică de învățare profundă. Acest Fabric se întinde pe mai multe motoare de învățare profundă, cum ar fi TensorFlow, Caffe și PyTorch. Combină flexibilitatea, ușurința de utilizare și economia unui serviciu cloud cu puterea învățării profunde. Veți găsi că este ușor de utilizat și, folosind API-urile REST, puteți personaliza instruirea cu diferite resurse în funcție de cerințele utilizatorului sau de buget. Permiteți utilizatorilor să se concentreze pe învățarea profundă și pe aplicații în loc să se concentreze pe erori.

Debit

debit

  1. Deployerul FfDL implementează baza de cod FfDL într-un cluster Kubernetes. Clusterul Kubernetes este configurat să utilizeze GPU-uri, procesoare sau ambele și are acces la stocarea obiectelor compatibile cu S3. Dacă nu este specificat, este creat un pod S3 simulat local.
  2. Odată implementat, cercetătorul de date încarcă datele de antrenament model în depozitul de obiecte compatibil S3. FfDL presupune că datele sunt deja în formatul necesar, așa cum este prescris de diferite cadre de învățare profundă.
  3. Utilizatorul creează un fișier manifest model FfDL. Fișierul manifest conține diferite câmpuri care descriu modelul în FfDL, informațiile sale de stocare a obiectelor, cerințele sale de resurse și mai multe argumente (inclusiv hiperparametri) care sunt necesare pentru execuția modelului în timpul antrenamentului și testării. Utilizatorul interacționează apoi cu FfDL utilizând CLI/SDK sau UI pentru a implementa fișierul manifest model FfDL cu un fișier de definire a modelului. Utilizatorul lansează jobul de instruire și monitorizează progresul acesteia.
  4. Utilizatorul descarcă modelul instruit și jurnalele asociate odată ce lucrarea de instruire este finalizată.

Instrucțiuni

Găsiți pașii detaliați pentru acest model în README. Pașii vă vor arăta cum să:

  1. Compilați și codificați și construiți imagini Docker.
  2. Instalați componentele FfDL cu instalarea cârmei.
  3. Rulați un script pentru a configura Grafana pentru monitorizarea FfDL.
  4. Obțineți punctele finale Grafana, FfDL Web UI și FfDL REST API.
  5. Rulați câteva lucrări simple pentru a antrena un model de rețea convoluțională utilizând TensorFlow și Caffe.

Sursa: https://developer.ibm.com/patterns/deploy-and-use-a-multi-framework-deep-learning-platform-on-kubernetes/

Timestamp-ul:

Mai mult de la Dezvoltator IBM