Men-deploy dan menggunakan platform deep learning multi-framework di Kubernetes

Node Sumber: 1580762

Deskripsi Produk

Sebagai praktisi pembelajaran mendalam, Anda menginginkan keandalan dan skalabilitas saat mengatur tugas pelatihan Anda. Selain itu, Anda ingin melakukan ini secara konsisten di beberapa perpustakaan. Dengan Fabric for Deep Learning (FfDL) di Kubernetes, Anda dapat mencapai hal ini dengan memberikan pengguna kemampuan untuk memanfaatkan perpustakaan pembelajaran mendalam seperti Caffe, Torch, dan TensorFlow di cloud dengan cara yang tangguh dan sedikit usaha. Platform ini menggunakan lapisan distribusi dan orkestrasi yang memfasilitasi pembelajaran dari sejumlah besar data dalam jangka waktu yang wajar di seluruh node komputasi. Lapisan penyediaan sumber daya memungkinkan manajemen pekerjaan yang fleksibel pada sumber daya yang heterogen, seperti unit pemrosesan grafis (GPU) dan unit pemrosesan pusat (CPU), di cloud infrastruktur sebagai layanan (IaaS).

Ringkasan

Melatih jaringan saraf dalam, yang dikenal sebagai pembelajaran mendalam (bagian dari metode pembelajaran mesin), sangatlah kompleks dan intensif komputasi. Umumnya pengguna pembelajaran mendalam tidak perlu melihat detail infrastruktur perangkat keras dan perangkat lunak yang mendasarinya, termasuk mengonfigurasi mesin GPU yang mahal, menginstal perpustakaan pembelajaran mendalam, dan mengelola pekerjaan selama eksekusi untuk menangani kegagalan dan pemulihan. Meskipun mudah untuk mendapatkan perangkat keras dari cloud IaaS dan membayar per jam, pengguna masih perlu mengelola mesin tersebut, menginstal perpustakaan yang diperlukan, dan memastikan ketahanan pekerjaan pelatihan pembelajaran mendalam.

Di sinilah letak peluang pembelajaran mendalam sebagai sebuah layanan. Dalam pola kode ini, kami menunjukkan cara menerapkan Fabric pembelajaran mendalam di Kubernetes. Dengan menggunakan artefak arsitektur cloud native seperti Kubernetes, layanan mikro, diagram Helm, dan penyimpanan objek, kami menunjukkan kepada Anda cara menerapkan dan menggunakan Fabric pembelajaran mendalam. Fabric ini mencakup beberapa mesin pembelajaran mendalam seperti TensorFlow, Caffe, dan PyTorch. Ini menggabungkan fleksibilitas, kemudahan penggunaan, dan keekonomian layanan cloud dengan kekuatan pembelajaran mendalam. Anda akan merasa mudah menggunakannya dan dengan menggunakan REST API, Anda dapat menyesuaikan pelatihan dengan sumber daya yang berbeda sesuai kebutuhan atau anggaran pengguna. Izinkan pengguna untuk fokus pada pembelajaran mendalam dan aplikasi daripada berfokus pada kesalahan.

Aliran

aliran

  1. Penyebar FfDL menyebarkan basis kode FfDL ke cluster Kubernetes. Klaster Kubernetes dikonfigurasi untuk menggunakan GPU, CPU, atau keduanya, dan memiliki akses ke penyimpanan objek yang kompatibel dengan S3. Jika tidak ditentukan, pod S3 yang disimulasikan secara lokal akan dibuat.
  2. Setelah diterapkan, data scientist mengunggah data pelatihan model ke penyimpanan objek yang kompatibel dengan S3. FfDL mengasumsikan data sudah dalam format yang diperlukan seperti yang ditentukan oleh kerangka pembelajaran mendalam yang berbeda.
  3. Pengguna membuat file manifes Model FfDL. File manifes berisi berbagai bidang yang menjelaskan model di FfDL, informasi penyimpanan objeknya, persyaratan sumber dayanya, dan beberapa argumen (termasuk hyperparameter) yang diperlukan untuk eksekusi model selama pelatihan dan pengujian. Pengguna kemudian berinteraksi dengan FfDL menggunakan CLI/SDK atau UI untuk menyebarkan file manifes model FfDL dengan file definisi model. Pengguna meluncurkan tugas pelatihan dan memantau kemajuannya.
  4. Pengguna mengunduh model terlatih dan log terkait setelah tugas pelatihan selesai.

petunjuk

Temukan langkah detail untuk pola ini di README. Langkah-langkahnya akan menunjukkan kepada Anda cara:

  1. Kompilasi dan kode serta buat image Docker.
  2. Instal komponen FfDL dengan helm install.
  3. Jalankan skrip untuk mengonfigurasi Grafana untuk memantau FfDL.
  4. Dapatkan titik akhir Grafana, FfDL Web UI, dan FfDL REST API Anda.
  5. Jalankan beberapa tugas sederhana untuk melatih model jaringan konvolusional dengan menggunakan TensorFlow dan Caffe.

Sumber: https://developer.ibm.com/patterns/deploy-and-use-a-multi-framework-deep-learning-platform-on-kubernetes/

Stempel Waktu:

Lebih dari Pengembang IBM