Luncurkan pekerjaan pemrosesan dengan beberapa klik menggunakan Amazon SageMaker Data Wrangler

Node Sumber: 1600104

Pengatur Data Amazon SageMaker mempercepat data scientist dan engineer dalam menyiapkan data untuk aplikasi machine learning (ML) dengan menggunakan antarmuka visual. Sebelumnya, saat Anda membuat aliran data Data Wrangler, Anda dapat memilih opsi ekspor yang berbeda untuk mengintegrasikan aliran data tersebut dengan mudah ke alur pemrosesan data Anda. Data Wrangler menawarkan opsi ekspor ke Layanan Penyimpanan Sederhana Amazon (Amazon S3), Pipa SageMaker, dan Toko Fitur SageMaker, atau sebagai kode Python. Opsi ekspor membuat notebook Jupyter dan mengharuskan Anda menjalankan kode untuk memulai pekerjaan pemrosesan yang difasilitasi oleh Pengolahan SageMaker.

Kami dengan senang hati mengumumkan rilis umum node tujuan dan fitur Buat Pekerjaan di Data Wrangler. Fitur ini memberi Anda kemampuan untuk mengekspor semua transformasi yang Anda buat ke kumpulan data ke node tujuan hanya dengan beberapa klik. Hal ini memungkinkan Anda membuat tugas pemrosesan data dan mengekspor ke Amazon S3 murni melalui antarmuka visual tanpa harus membuat, menjalankan, atau mengelola notebook Jupyter, sehingga meningkatkan pengalaman kode rendah. Untuk mendemonstrasikan fitur baru ini, kami menggunakan Kumpulan data Titanic dan tunjukkan cara mengekspor transformasi Anda ke node tujuan.

Prasyarat

Sebelum kita mempelajari cara menggunakan node tujuan dengan Data Wrangler, Anda harus sudah memahami caranya mengakses dan memulai dengan Data Wrangler. Anda juga perlu tahu apa a aliran data berarti dengan konteks ke Data Wrangler dan cara membuatnya dengan mengimpor data Anda dari berbagai sumber data yang didukung Data Wrangler.

Ikhtisar solusi

Pertimbangkan aliran data berikut bernama example-titanic.flow:

  • Itu mengimpor dataset Titanic tiga kali. Anda dapat melihat impor yang berbeda ini sebagai cabang terpisah dalam aliran data.
  • Untuk setiap cabang, ini menerapkan serangkaian transformasi dan visualisasi.
  • Ini menggabungkan cabang menjadi satu simpul dengan semua transformasi dan visualisasi.

Dengan alur ini, Anda mungkin ingin memproses dan menyimpan sebagian data Anda ke cabang atau lokasi tertentu.

Dalam langkah-langkah berikut, kami mendemonstrasikan cara membuat node tujuan, mengekspornya ke Amazon S3, dan membuat serta meluncurkan tugas pemrosesan.

Buat simpul tujuan

Anda dapat menggunakan prosedur berikut untuk membuat node tujuan dan mengekspornya ke bucket S3:

  1. Tentukan bagian mana dari file aliran (transformasi) yang ingin Anda simpan.
  2. Pilih tanda plus di sebelah simpul yang mewakili transformasi yang ingin Anda ekspor. (Jika itu simpul yang diciutkan, Anda harus memilih ikon opsi (tiga titik) untuk simpul tersebut).
  3. Membawa lebih Tambahkan tujuan.
  4. Pilih Amazon S3.
  5. Tentukan bidang seperti yang ditunjukkan pada tangkapan layar berikut.
  6. Untuk node gabungan kedua, ikuti langkah yang sama untuk menambahkan Amazon S3 sebagai tujuan dan tentukan bidangnya.

Anda dapat mengulangi langkah-langkah ini sebanyak yang Anda perlukan untuk sebanyak mungkin simpul yang Anda inginkan dalam aliran data. Nanti, Anda memilih node tujuan mana yang akan disertakan dalam tugas pemrosesan Anda.

Luncurkan tugas pemrosesan

Gunakan prosedur berikut untuk membuat pekerjaan pemrosesan dan pilih simpul tujuan tempat Anda ingin mengekspor:

  1. pada Aliran data tab, pilih Ciptakan pekerjaan.
  2. Untuk Nama Pekerjaan¸ masukkan nama pekerjaan ekspor.
  3. Pilih node tujuan yang ingin Anda ekspor.
  4. Secara opsional, tentukan Layanan Manajemen Kunci AWS (AWS KMS) kunci ARN.

Kunci KMS adalah kunci kriptografi yang dapat Anda gunakan untuk melindungi data Anda. Untuk informasi selengkapnya tentang kunci KMS, lihat Panduan Pengembang Kunci AWS.

  1. Pilih Selanjutnya, 2. Konfigurasi pekerjaan.
  2. Secara opsional, Anda dapat mengonfigurasi tugas sesuai kebutuhan dengan mengubah jenis atau jumlah instans, atau menambahkan tag apa pun untuk dikaitkan dengan tugas.
  3. Pilih Run untuk menjalankan pekerjaan.

Pesan sukses muncul saat pekerjaan berhasil dibuat.

Lihat data akhir

Terakhir, Anda dapat menggunakan langkah-langkah berikut untuk melihat data yang diekspor:

  1. Setelah Anda membuat pekerjaan, pilih tautan yang disediakan.

Tab baru akan terbuka dan menampilkan tugas pemrosesan di konsol SageMaker.

  1. Saat pekerjaan selesai, tinjau data yang diekspor di konsol Amazon S3.

Anda akan melihat folder baru dengan nama pekerjaan yang Anda pilih.

  1. Pilih nama pekerjaan untuk melihat file CSV (atau beberapa file) dengan data akhir.

FAQ

Di bagian ini, kami menjawab beberapa pertanyaan umum tentang fitur baru ini:

  • Apa yang terjadi pada tab Ekspor? Dengan fitur baru ini, kami menghapus Ekspor tab dari Data Wrangler. Anda masih dapat memfasilitasi fungsi ekspor melalui notebook Jupyter yang dihasilkan Data Wrangler dari node mana pun yang Anda buat dalam aliran data dengan langkah-langkah berikut:
    1. Pilih tanda tambah di sebelah simpul yang ingin Anda ekspor.
    2. Pilih Ekspor ke.
    3. Pilih Amazon S3 (melalui Notebook Jupyter).
    4. Jalankan notebook Jupyter.
  • Berapa banyak simpul tujuan yang dapat saya sertakan dalam suatu pekerjaan? Ada maksimum 10 tujuan per tugas pemrosesan.
  • Berapa banyak node tujuan yang dapat saya miliki dalam file aliran? Anda dapat memiliki node tujuan sebanyak yang Anda inginkan.
  • Bisakah saya menambahkan transformasi setelah node tujuan saya? Tidak, idenya adalah simpul tujuan adalah simpul terminal yang tidak memiliki langkah lebih lanjut sesudahnya.
  • Apa sumber pendukung yang dapat saya gunakan dengan node tujuan? Saat tulisan ini dibuat, kami hanya mendukung Amazon S3 sebagai sumber tujuan. Dukungan untuk lebih banyak jenis sumber tujuan akan ditambahkan di masa mendatang. Silakan hubungi jika ada yang ingin Anda lihat.

Kesimpulan

Dalam postingan ini, kami mendemonstrasikan cara menggunakan node tujuan yang baru diluncurkan untuk membuat tugas pemrosesan dan menyimpan kumpulan data Anda yang telah diubah langsung ke Amazon S3 melalui antarmuka visual Data Wrangler. Dengan fitur tambahan ini, kami telah meningkatkan pengalaman kode rendah berbasis alat dari Data Wrangler.

Sebagai langkah selanjutnya, kami sarankan Anda mencoba contoh yang ditunjukkan dalam posting ini. Jika Anda memiliki pertanyaan atau ingin mempelajari lebih lanjut, lihat Ekspor atau tinggalkan pertanyaan di kolom komentar.


Tentang Penulis

Alfonso Austin-Rivera adalah Insinyur Ujung Depan di Amazon SageMaker Data Wrangler. Dia bersemangat membangun pengalaman pengguna yang intuitif yang memicu kegembiraan. Di waktu luangnya, Anda dapat menemukannya melawan gravitasi di gym panjat tebing atau di luar menerbangkan drone-nya.

Parsha Shahbodaghi adalah Penulis Teknis di AWS yang berspesialisasi dalam pembelajaran mesin dan kecerdasan buatan. Dia menulis dokumentasi teknis untuk Amazon SageMaker Data Wrangler dan Amazon SageMaker Feature Store. Di waktu luangnya, dia senang bermeditasi, mendengarkan buku audio, angkat besi, dan menonton stand-up comedy. Dia tidak akan pernah menjadi stand-up comedian, tapi setidaknya ibunya menganggap dia lucu.

Balaji Tummala adalah Insinyur Pengembangan Perangkat Lunak di Amazon SageMaker. Dia membantu mendukung Amazon SageMaker Data Wrangler dan bersemangat dalam membangun perangkat lunak yang berkinerja dan skalabel. Di luar pekerjaan, dia suka membaca fiksi dan bermain bola voli.

Arunprasath Shankar adalah Arsitek Solusi Spesialis Kecerdasan Buatan dan Pembelajaran Mesin (AI / ML) dengan AWS, membantu pelanggan global menskalakan solusi AI mereka secara efektif dan efisien di cloud. Di waktu senggangnya, Arun suka menonton film sci-fi dan mendengarkan musik klasik.

Sumber: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Stempel Waktu:

Lebih dari Blog Pembelajaran Mesin AWS