Juurutage ja kasutage Kubernetesis mitme raamistikuga süvaõppeplatvormi

Allikasõlm: 1580762

Kirjeldus

Süvaõppe praktikuna soovite oma koolitustööde korraldamisel usaldusväärsust ja mastaapsust. Lisaks sooviksite seda teha järjepidevalt mitmes teegis. Kubernetese Fabric for Deep Learning (FfDL) abil saate selle saavutada, andes kasutajatele võimaluse kasutada pilves vastupidavalt ja minimaalse pingutusega süvaõppe teeke, nagu Caffe, Torch ja TensorFlow. Platvorm kasutab jaotus- ja orkestreerimiskihti, mis hõlbustab arvutussõlmede vahel mõistliku aja jooksul suurest andmemahust õppimist. Ressursivarude kiht võimaldab paindlikult tööde haldamist heterogeensete ressursside (nt graafikaprotsessorid (GPU-d)) ja keskprotsessorid (CPU-d) infrastruktuuri kui teenuse (IaaS) pilves.

Ülevaade

Sügavate närvivõrkude koolitamine, mida tuntakse süvaõppena (osa masinõppemeetoditest), on väga keeruline ja arvutusmahukas. Tavaline süvaõppe kasutaja puutub tarbetult kokku aluseks oleva riist- ja tarkvara infrastruktuuri üksikasjadega, sealhulgas kallite GPU-masinate konfigureerimise, süvaõppe teekide installimise ja tööde haldamise ajal tõrgete ja taastamise käigus. Vaatamata lihtsusele IaaS-i pilvedest riistvara hankimisel ja tunnipõhiselt maksmisel, peab kasutaja siiski neid masinaid haldama, vajalikke teeke installima ja tagama süvaõppe koolitustööde vastupidavuse.

Siin peitub sügava õppimise kui teenuse võimalus. Selles koodimustris näitame teile, kuidas juurutada Kubernetesis süvaõppekangast. Kasutades pilvepõhiseid arhitektuurilisi artefakte, nagu Kubernetes, mikroteenused, Helmi diagrammid ja objektide salvestusruum, näitame teile, kuidas juurutada ja kasutada süvaõppekangast. See kangas hõlmab mitut süvaõppemootorit, nagu TensorFlow, Caffe ja PyTorch. See ühendab pilveteenuse paindlikkuse, kasutuslihtsuse ja ökonoomsuse süvaõppe võimsusega. Teil on lihtne kasutada ja kasutades REST API-sid, saate kohandada koolitust erinevate ressurssidega vastavalt kasutaja nõudmistele või eelarvele. Lubage kasutajatel vigadele keskendumise asemel keskenduda sügavale õppimisele ja rakendustele.

voolama

voog

  1. FfDL-i juurutaja juurutab FfDL-i koodibaasi Kubernetese klastris. Kubernetese klaster on konfigureeritud kasutama GPU-sid, CPU-sid või mõlemaid ning sellel on juurdepääs S3-ühilduvale objektisalvestusele. Kui pole määratud, luuakse lokaalselt simuleeritud S3 pod.
  2. Pärast kasutuselevõttu laadib andmeteadlane mudeli koolitusandmed üles S3-ühilduvasse objektisalve. FfDL eeldab, et andmed on juba nõutavas vormingus, nagu on ette nähtud erinevates süvaõppe raamistikes.
  3. Kasutaja loob FfDL mudeli manifesti faili. Manifesti fail sisaldab erinevaid välju, mis kirjeldavad mudelit FfDL-is, selle objektide salvestamise teavet, selle ressursinõudeid ja mitmeid argumente (sh hüperparameetreid), mis on vajalikud mudeli täitmiseks koolituse ja testimise ajal. Seejärel suhtleb kasutaja FfDL-iga, kasutades CLI/SDK-d või kasutajaliidest, et juurutada FfDL-i mudeli manifesti fail koos mudeli määratluse failiga. Kasutaja käivitab koolitustöö ja jälgib selle edenemist.
  4. Kui koolitustöö on lõpetatud, laadib kasutaja alla koolitatud mudeli ja sellega seotud logid.

Juhised

Selle mustri üksikasjalikud juhised leiate jaotisest README. Need sammud näitavad teile, kuidas:

  1. Kompileerige ja kodeerige ning looge Dockeri pilte.
  2. Paigaldage FfDL-i komponendid koos roolipaigaldusega.
  3. Käivitage skript, et konfigureerida Grafana FfDL-i jälgimiseks.
  4. Hankige oma Grafana, FfDL Web UI ja FfDL REST API lõpp-punktid.
  5. Tehke mõned lihtsad tööd, et treenida konvolutsioonilist võrgumudelit, kasutades TensorFlow ja Caffe.

Allikas: https://developer.ibm.com/patterns/deploy-and-use-a-multi-framework-deep-learning-platform-on-kubernetes/

Ajatempel:

Veel alates IBMi arendaja