Amazon SageMaker Data Wrangler'ı kullanarak birkaç tıklamayla işleme işlerini başlatın

Kaynak Düğüm: 1600104

Amazon SageMaker Veri Düzenleyicisi veri bilimcilerinin ve mühendislerinin görsel bir arayüz kullanarak makine öğrenimi (ML) uygulamaları için verileri hazırlamasını hızlandırır. Daha önce, bir Data Wrangler veri akışı oluşturduğunuzda, bu veri akışını veri işleme hattınıza kolayca entegre etmek için farklı dışarı aktarma seçenekleri seçebiliyordunuz. Data Wrangler, dışa aktarma seçenekleri sunar Amazon Basit Depolama Hizmeti (Amazon S3), SageMaker Boru Hatları, ve SageMaker Özellik Mağazasıveya Python kodu olarak. Dışa aktarma seçenekleri bir Jupyter not defteri oluşturur ve Jupyter tarafından kolaylaştırılan bir işleme işini başlatmak için kodu çalıştırmanızı gerektirir. SageMaker İşleme.

Hedef düğümlerin genel sürümünün ve Data Wrangler'daki İş Oluştur özelliğinin kullanıma sunulduğunu duyurmaktan heyecan duyuyoruz. Bu özellik, bir veri kümesinde yaptığınız tüm dönüşümleri yalnızca birkaç tıklamayla bir hedef düğüme aktarma olanağı sağlar. Bu, Jupyter not defterleri oluşturmanıza, çalıştırmanıza veya yönetmenize gerek kalmadan veri işleme işleri oluşturmanıza ve yalnızca görsel arayüz aracılığıyla Amazon S3'e aktarmanıza olanak tanır ve böylece düşük kod deneyimini geliştirir. Bu yeni özelliği göstermek için şunu kullanıyoruz: Titanik veri seti ve dönüşümlerinizi hedef düğüme nasıl aktaracağınızı gösterin.

Önkoşullar

Hedef düğümlerin Data Wrangler ile nasıl kullanılacağını öğrenmeden önce, nasıl kullanılacağını zaten anlamalısınız. Data Wrangler'a erişin ve kullanmaya başlayın. Ayrıca ne olduğunu da bilmeniz gerekir veri akışı Data Wrangler bağlamı ve Data Wrangler'ın desteklediği farklı veri kaynaklarından verilerinizi içe aktararak nasıl bir tane oluşturulacağı anlamına gelir.

Çözüme genel bakış

Adlı aşağıdaki veri akışını göz önünde bulundurun example-titanic.flow:

  • Titanic veri kümesini üç kez içe aktarır. Bu farklı içe aktarmaları veri akışında ayrı dallar olarak görebilirsiniz.
  • Her dal için bir dizi dönüşüm ve görselleştirme uygulanır.
  • Tüm dönüşümler ve görselleştirmelerle dalları tek bir düğümde birleştirir.

Bu akışla verilerinizin bir kısmını işleyip belirli bir şubeye veya konuma kaydetmek isteyebilirsiniz.

Aşağıdaki adımlarda hedef düğümlerin nasıl oluşturulacağını, bunların Amazon S3'e nasıl aktarılacağını ve bir işleme işinin nasıl oluşturulacağını ve başlatılacağını göstereceğiz.

Hedef düğüm oluşturma

Hedef düğümler oluşturmak ve bunları bir S3 klasörüne aktarmak için aşağıdaki prosedürü kullanabilirsiniz:

  1. Akış dosyasının hangi bölümlerini (dönüşümleri) kaydetmek istediğinizi belirleyin.
  2. Dışa aktarmak istediğiniz dönüşümleri temsil eden düğümlerin yanındaki artı işaretini seçin. (Daraltılmış bir düğümse, düğüm için seçenekler simgesini (üç nokta) seçmelisiniz).
  3. Üzerinde gezdirin Hedef ekle.
  4. Klinik Amazon S3.
  5. Aşağıdaki ekran görüntüsünde gösterildiği gibi alanları belirtin.
  6. İkinci birleştirme düğümünde Amazon S3'ü hedef olarak eklemek ve alanları belirtmek için aynı adımları izleyin.

Veri akışınızda istediğiniz sayıda düğüm için bu adımları ihtiyaç duyduğunuz sayıda tekrarlayabilirsiniz. Daha sonra işleme işinize hangi hedef düğümlerin dahil edileceğini seçersiniz.

Bir işleme işi başlatın

Bir işleme işi oluşturmak ve dışa aktarmak istediğiniz hedef düğümü seçmek için aşağıdaki prosedürü kullanın:

  1. Üzerinde Veri akışı sekmesini seçin İş oluştur.
  2. İçin İş adı¸ dışa aktarma işinin adını girin.
  3. Dışa aktarmak istediğiniz hedef düğümleri seçin.
  4. İsteğe bağlı olarak şunu belirtin: AWS Anahtar Yönetim Hizmeti (AWS KMS) anahtarı ARN.

KMS anahtarı, verilerinizi korumak için kullanabileceğiniz bir şifreleme anahtarıdır. KMS anahtarları hakkında daha fazla bilgi için bkz. AWS Temel Geliştirici Kılavuzu.

  1. Klinik Sonraki, 2. İşi yapılandırın.
  2. İsteğe bağlı olarak, örnek türünü veya sayısını değiştirerek ya da işle ilişkilendirilecek etiketleri ekleyerek işi ihtiyaçlarınıza göre yapılandırabilirsiniz.
  3. Klinik koşmak işi yürütmek için.

İş başarıyla oluşturulduğunda bir başarı mesajı görüntülenir.

Nihai verileri görüntüleyin

Son olarak, dışa aktarılan verileri görüntülemek için aşağıdaki adımları kullanabilirsiniz:

  1. İşi oluşturduktan sonra sağlanan bağlantıyı seçin.

SageMaker konsolunda işleme işini gösteren yeni bir sekme açılır.

  1. İş tamamlandığında Amazon S3 konsolunda dışa aktarılan verileri inceleyin.

Seçtiğiniz iş adına sahip yeni bir klasör görmelisiniz.

  1. Nihai verileri içeren bir CSV dosyasını (veya birden fazla dosyayı) görüntülemek için iş adını seçin.

SSS

Bu bölümde bu yeni özellikle ilgili sık sorulan birkaç soruyu ele alıyoruz:

  • Dışa Aktar sekmesine ne oldu? Bu yeni özellik sayesinde, Ihracat Data Wrangler'dan sekme. Veri akışında oluşturduğunuz herhangi bir düğümden Data Wrangler tarafından oluşturulan Jupyter not defterleri aracılığıyla dışa aktarma işlevini aşağıdaki adımlarla kolaylaştırabilirsiniz:
    1. Dışa aktarmak istediğiniz düğümün yanındaki artı işaretini seçin.
    2. Klinik İhracat.
    3. Klinik Amazon S3 (Jupyter Notebook aracılığıyla).
    4. Jupyter not defterini çalıştırın.
  • Bir işe kaç tane hedef düğüm ekleyebilirim? İşleme işi başına maksimum 10 hedef vardır.
  • Bir akış dosyasında kaç tane hedef düğüm bulunabilir? İstediğiniz kadar hedef düğümünüz olabilir.
  • Hedef düğümlerimden sonra dönüşümler ekleyebilir miyim? Hayır, amaç şu ki, hedef düğümler daha sonra başka bir adım atmayan terminal düğümlerdir.
  • Hedef düğümlerle kullanabileceğim desteklenen kaynaklar nelerdir? Bu yazının yazıldığı an itibarıyla hedef kaynak olarak yalnızca Amazon S3'ü destekliyoruz. Gelecekte daha fazla hedef kaynak türü desteği eklenecektir. Görmek istediğiniz belirli bir tane varsa lütfen iletişime geçin.

Özet

Bu gönderide, işleme işleri oluşturmak ve dönüştürülmüş veri kümelerinizi Data Wrangler görsel arayüzü aracılığıyla doğrudan Amazon S3'e kaydetmek için yeni başlatılan hedef düğümleri nasıl kullanacağınızı gösterdik. Bu ek özellik ile Data Wrangler'ın araç tabanlı düşük kod deneyimini geliştirdik.

Sonraki adımlarda bu yazıda gösterilen örneği denemenizi öneririz. Sorularınız varsa veya daha fazla bilgi edinmek istiyorsanız bkz. Ihracat veya yorum bölümüne bir soru bırakın.


Yazarlar Hakkında

Alfonso Austin-Rivera Amazon SageMaker Data Wrangler'da Ön Uç Mühendisidir. Keyif veren sezgisel kullanıcı deneyimleri oluşturma konusunda tutkulu. Boş zamanlarında onu kaya tırmanışı salonunda yer çekimiyle savaşırken veya dışarıda drone'unu uçururken bulabilirsiniz.

Parsa Şahbodaghi AWS'de makine öğrenimi ve yapay zeka konusunda uzmanlaşmış bir Teknik Yazardır. Amazon SageMaker Data Wrangler ve Amazon SageMaker Özellik Mağazası'nın teknik belgelerini yazıyor. Boş zamanlarında meditasyon yapmaktan, sesli kitap dinlemekten, halter kaldırmaktan ve stand-up komedi izlemekten hoşlanıyor. Hiçbir zaman bir stand-up komedyeni olamayacak ama en azından annesi onun komik olduğunu düşünüyor.

Balaji Tummala Amazon SageMaker'da Yazılım Geliştirme Mühendisi. Amazon SageMaker Data Wrangler'ın desteklenmesine yardımcı olur ve yüksek performanslı ve ölçeklenebilir yazılımlar geliştirme konusunda tutkuludur. İş dışında kurgu okumaktan ve voleybol oynamaktan hoşlanıyor.

Arunprasath Şankar AWS'li bir Yapay Zeka ve Makine Öğrenimi (AI / ML) Uzman Çözüm Mimarıdır ve küresel müşterilerin yapay zeka çözümlerini bulutta etkili ve verimli bir şekilde ölçeklendirmelerine yardımcı olur. Arun boş zamanlarında bilim kurgu filmleri izlemekten ve klasik müzik dinlemekten hoşlanıyor.

Kaynak: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Zaman Damgası:

Den fazla AWS Makine Öğrenimi Blogu