Siapkan dan analisis data JSON dan ORC dengan Amazon SageMaker Data Wrangler

Node Sumber: 1600106

Pengatur Data Amazon SageMaker adalah kemampuan baru dari Amazon SageMaker yang membuatnya lebih cepat bagi ilmuwan dan insinyur data untuk menyiapkan data untuk aplikasi pembelajaran mesin (ML) melalui antarmuka visual. Persiapan data adalah langkah penting dari siklus hidup ML, dan Data Wrangler menyediakan solusi menyeluruh untuk mengimpor, menyiapkan, mengubah, menampilkan, dan menganalisis data untuk ML dalam pengalaman tanpa hambatan, visual, dan kode rendah. Ini memungkinkan Anda terhubung dengan mudah dan cepat ke komponen AWS seperti Layanan Penyimpanan Sederhana Amazon (Amazon S3), Amazon Athena, Pergeseran Merah Amazon, dan Formasi Danau AWS, dan sumber eksternal seperti Snowflake. Data Wrangler juga mendukung tipe data standar seperti CSV dan Parket.

Data Wrangler sekarang juga mendukung Kolom Baris yang Dioptimalkan (ORC), format file JavaScript Object Notation (JSON), dan JSON Lines (JSONL):

  • ORC – Format file ORC menyediakan cara yang sangat efisien untuk menyimpan data Hive. Itu dirancang untuk mengatasi keterbatasan format file Hive lainnya. Menggunakan file ORC meningkatkan kinerja saat Hive membaca, menulis, dan memproses data. ORC banyak digunakan di ekosistem Hadoop.
  • JSON – Format file JSON adalah format pertukaran data yang ringan dan umum digunakan.
  • JSONL – JSON Lines, juga disebut JSON yang dibatasi baris baru, adalah format yang nyaman untuk menyimpan data terstruktur yang dapat diproses satu record pada satu waktu.

Anda dapat melihat pratinjau data ORC, JSON, dan JSONL sebelum mengimpor set data ke dalam Data Wrangler. Setelah Anda mengimpor data, Anda juga dapat menggunakan salah satu transformator yang baru diluncurkan untuk bekerja dengan kolom yang berisi string atau larik JSON yang biasanya ditemukan di JSON bersarang.

Impor dan analisis data ORC dengan Data Wrangler

Mengimpor data ORC di Data Wrangler mudah dan mirip dengan mengimpor file dalam format lain yang didukung. Jelajahi file ORC Anda di Amazon S3 dan di RINCIAN panel, pilih ORC sebagai jenis file selama impor.

Jika Anda baru menggunakan Data Wrangler, tinjau Memulai dengan Data Wrangler. Juga lihat impor untuk mempelajari tentang berbagai opsi impor.

Impor dan analisis data JSON dengan Data Wrangler

Sekarang mari impor file dalam format JSON dengan Data Wrangler dan bekerja dengan kolom yang berisi string atau array JSON. Kami juga mendemonstrasikan cara menangani JSON bersarang. Dengan Data Wrangler, mengimpor file JSON dari Amazon S3 adalah proses yang mulus. Ini mirip dengan mengimpor file dalam format lain yang didukung. Setelah Anda mengimpor file, Anda dapat melihat pratinjau file JSON seperti yang ditunjukkan pada tangkapan layar berikut. Pastikan untuk mengatur jenis file ke JSON di RINCIAN pane

Selanjutnya, mari kita kerjakan kolom terstruktur di file JSON yang diimpor.

Untuk menangani kolom terstruktur dalam file JSON, Data Wrangler memperkenalkan dua transformasi baru: Ratakan kolom terstruktur dan Meledak kolom array, yang dapat ditemukan di bawah Menangani kolom terstruktur pilihan dalam TAMBAHKAN TRANSFORMASI pane

Mari kita mulai dengan menerapkan Meledak kolom array mengubah ke salah satu kolom dalam data yang diimpor kami. Sebelum menerapkan transformasi, kita dapat melihat kolom topping adalah array objek JSON dengan id dan type kunci.

Setelah kita menerapkan transformasi, kita dapat mengamati baris baru yang ditambahkan sebagai hasilnya. Setiap elemen dalam array sekarang menjadi baris baru di DataFrame yang dihasilkan.

Sekarang mari kita terapkan Ratakan kolom terstruktur berubah pada topping_flattened kolom yang dibuat sebagai hasil dari Meledak kolom array transformasi yang kita terapkan pada langkah sebelumnya.

Sebelum menerapkan transformasi, kita dapat melihat kuncinya id dan type dalam topping_flattened kolom.

Setelah menerapkan transformasi, sekarang kita dapat mengamati kuncinya id dan type bawah topping_flattened kolom sebagai kolom baru topping_flattened_id dan topping_flattened_type, yang dibuat sebagai hasil dari transformasi. Anda juga memiliki opsi untuk meratakan hanya kunci tertentu dengan memasukkan nama kunci yang dipisahkan koma untuk Kunci untuk meratakan. Jika dibiarkan kosong, semua kunci di dalam string atau struct JSON akan diratakan.

Kesimpulan

Dalam posting ini, kami menunjukkan cara mengimpor format file di ORC dan JSON dengan mudah dengan Data Wrangler. Kami juga menerapkan transformasi yang baru diluncurkan yang memungkinkan kami mengubah kolom terstruktur apa pun dalam data JSON. Ini membuat bekerja dengan kolom yang berisi string atau array JSON menjadi pengalaman yang mulus.

Sebagai langkah selanjutnya, kami sarankan Anda meniru contoh yang ditunjukkan di antarmuka visual Data Wrangler Anda sendiri. Jika Anda memiliki pertanyaan terkait dengan Data Wrangler, silakan tinggalkan di bagian komentar.


Tentang Penulis

Balaji Tummala adalah Insinyur Pengembangan Perangkat Lunak di Amazon SageMaker. Dia membantu mendukung Amazon SageMaker Data Wrangler dan bersemangat dalam membangun perangkat lunak yang berkinerja dan skalabel. Di luar pekerjaan, dia suka membaca fiksi dan bermain bola voli.

Arunprasath Shankar adalah Arsitek Solusi Spesialis Kecerdasan Buatan dan Pembelajaran Mesin (AI / ML) dengan AWS, membantu pelanggan global menskalakan solusi AI mereka secara efektif dan efisien di cloud. Di waktu senggangnya, Arun suka menonton film sci-fi dan mendengarkan musik klasik.

Sumber: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Stempel Waktu:

Lebih dari Blog Pembelajaran Mesin AWS