Kubernetes'te çok çerçeveli bir derin öğrenme platformu dağıtın ve kullanın

Kaynak Düğüm: 1580762

Açıklama

Bir derin öğrenme uygulayıcısı olarak eğitim işlerinizi düzenlerken güvenilirlik ve ölçeklenebilirlik istersiniz. Ayrıca bunu birden çok kitaplıkta tutarlı bir şekilde yapmak istersiniz. Kubernetes'teki Fabric for Deep Learning (FfDL) ile bunu, kullanıcılara buluttaki Caffe, Torch ve TensorFlow gibi derin öğrenme kitaplıklarından minimum çabayla esnek bir şekilde yararlanma olanağı vererek başarabilirsiniz. Platform, bilgi işlem düğümleri arasında büyük miktarda veriden makul bir süre içinde öğrenmeyi kolaylaştıran bir dağıtım ve düzenleme katmanı kullanıyor. Kaynak sağlama katmanı, hizmet olarak altyapı (IaaS) bulutunda grafik işlem birimleri (GPU'lar) ve merkezi işlem birimleri (CPU'lar) gibi heterojen kaynaklar üzerinde esnek iş yönetimine olanak tanır.

Genel Bakış

Derin öğrenme (makine öğrenimi yöntemlerinin bir parçası) olarak bilinen derin sinir ağlarının eğitimi oldukça karmaşıktır ve hesaplama açısından yoğundur. Tipik bir derin öğrenme kullanıcısı, pahalı GPU makinelerini yapılandırmak, derin öğrenme kitaplıkları yüklemek ve arızaları ve kurtarmayı ele almak için yürütme sırasında işleri yönetmek dahil olmak üzere, temeldeki donanım ve yazılım altyapısının ayrıntılarına gereksiz yere maruz kalır. IaaS bulutlarından donanım edinme ve saatlik ödeme yapma kolaylığına rağmen kullanıcının yine de bu makineleri yönetmesi, gerekli kitaplıkları kurması ve derin öğrenme eğitim işlerinin esnekliğini sağlaması gerekiyor.

Bir hizmet olarak derin öğrenme fırsatının yattığı yer burasıdır. Bu kod modelinde size Kubernetes'te derin öğrenme Yapısının nasıl dağıtılacağını gösteriyoruz. Kubernetes, mikro hizmetler, Helm grafikleri ve nesne depolama gibi bulut yerel mimari yapılarını kullanarak size derin öğrenme Kumaşını nasıl dağıtacağınızı ve kullanacağınızı gösteriyoruz. Bu Yapı, TensorFlow, Caffe ve PyTorch gibi birden fazla derin öğrenme motorunu kapsar. Bir bulut hizmetinin esnekliğini, kullanım kolaylığını ve ekonomisini derin öğrenmenin gücüyle birleştirir. Kullanımının kolay olduğunu göreceksiniz ve REST API'lerini kullanarak eğitimi kullanıcı gereksinimlerine veya bütçesine göre farklı kaynaklarla özelleştirebilirsiniz. Kullanıcıların hatalara odaklanmak yerine derin öğrenmeye ve uygulamalara odaklanmasına izin verin.

akış

akış

  1. FfDL dağıtıcısı, FfDL kod tabanını bir Kubernetes kümesine dağıtır. Kubernetes kümesi GPU'ları, CPU'ları veya her ikisini birden kullanacak şekilde yapılandırılmıştır ve S3 uyumlu nesne depolamaya erişime sahiptir. Belirtilmemişse yerel olarak simüle edilmiş bir S3 bölmesi oluşturulur.
  2. Veri bilimcisi konuşlandırıldıktan sonra model eğitim verilerini S3 uyumlu nesne deposuna yükler. FfDL, verilerin zaten farklı derin öğrenme çerçeveleri tarafından öngörülen gerekli formatta olduğunu varsayar.
  3. Kullanıcı bir FfDL Modeli bildirim dosyası oluşturur. Bildirim dosyası, FfDL'deki modeli, nesne deposu bilgilerini, kaynak gereksinimlerini ve eğitim ve test sırasında modelin yürütülmesi için gerekli olan çeşitli bağımsız değişkenleri (hiper parametreler dahil) tanımlayan farklı alanları içerir. Kullanıcı daha sonra FfDL modeli bildirim dosyasını bir model tanım dosyasıyla dağıtmak için CLI/SDK veya kullanıcı arayüzünü kullanarak FfDL ile etkileşime girer. Kullanıcı eğitim işini başlatır ve ilerlemesini izler.
  4. Kullanıcı, eğitim işi tamamlandıktan sonra eğitilen modeli ve ilgili günlükleri indirir.

talimatlar

Bu kalıp için ayrıntılı adımları README'de bulabilirsiniz. Adımlar size aşağıdakileri nasıl yapacağınızı gösterecektir:

  1. Docker görüntülerini derleyin, kodlayın ve oluşturun.
  2. FfDL bileşenlerini dümen kurulumuyla yükleyin.
  3. FfDL'yi izlemek üzere Grafana'yı yapılandırmak için bir komut dosyası çalıştırın.
  4. Grafana, FfDL Web kullanıcı arayüzü ve FfDL REST API uç noktalarınızı edinin.
  5. TensorFlow ve Caffe'yi kullanarak evrişimli bir ağ modelini eğitmek için bazı basit işleri çalıştırın.

Kaynak: https://developer.ibm.com/patterns/deploy-and-use-a-multi-framework-deep-learning-platform-on-kubernetes/

Zaman Damgası:

Den fazla IBM Geliştirici