Amazon SageMaker Data Wrangler ile JSON ve ORC verilerini hazırlayın ve analiz edin

Kaynak Düğüm: 1600106

Amazon SageMaker Veri Düzenleyicisi yeni bir yeteneğidir Amazon Adaçayı Yapıcı bu, veri bilimcilerin ve mühendislerin verileri görsel bir arayüz aracılığıyla makine öğrenimi (ML) uygulamaları için hazırlamasını hızlandırır. Veri hazırlama, makine öğrenimi yaşam döngüsünün çok önemli bir adımıdır ve Data Wrangler, makine öğrenimi için verileri sorunsuz, görsel, düşük kodlu bir deneyimle içe aktarmak, hazırlamak, dönüştürmek, özellik haline getirmek ve analiz etmek için uçtan uca bir çözüm sunar. Aşağıdakiler gibi AWS bileşenlerine kolay ve hızlı bir şekilde bağlanmanıza olanak tanır: Amazon Basit Depolama Hizmeti (Amazon S3), Amazon Atina, Amazon Kırmızıya Kaydırma, ve AWS Göl Oluşumuve Snowflake gibi harici kaynaklar. Data Wrangler, CSV ve Parquet gibi standart veri türlerini de destekler.

Data Wrangler artık ayrıca Optimize Edilmiş Satır Sütununu (ORC), JavaScript Nesne Notasyonu (JSON) ve JSON Lines (JSONL) dosya biçimleri:

  • ORC – ORC dosya formatı, Hive verilerini depolamak için oldukça verimli bir yol sağlar. Diğer Hive dosya biçimlerinin sınırlamalarının üstesinden gelmek için tasarlanmıştır. ORC dosyalarını kullanmak, Hive verileri okurken, yazarken ve işlerken performansı artırır. ORC, Hadoop ekosisteminde yaygın olarak kullanılmaktadır.
  • JSON – JSON dosya biçimi, hafif, yaygın olarak kullanılan bir veri değişim biçimidir.
  • JSONL – Yeni satırla ayrılmış JSON olarak da adlandırılan JSON Lines, her seferinde bir kayıt işlenebilen yapılandırılmış verileri depolamak için uygun bir biçimdir.

Veri kümelerini Data Wrangler'a aktarmadan önce ORC, JSON ve JSONL verilerini önizleyebilirsiniz. Verileri içe aktardıktan sonra, iç içe geçmiş JSON'larda yaygın olarak bulunan JSON dizelerini veya dizileri içeren sütunlarla çalışmak için yeni başlatılan dönüştürücülerden birini de kullanabilirsiniz.

Data Wrangler ile ORC verilerini içe aktarın ve analiz edin

ORC verilerini Data Wrangler'da içe aktarmak kolaydır ve desteklenen diğer formatlardaki dosyaları içe aktarmaya benzer. Amazon S3'te ve Amazon'da ORC dosyanıza göz atın. DETAYLAR bölmesinde, içe aktarma sırasında dosya türü olarak ORC'yi seçin.

Data Wrangler'da yeniyseniz, gözden geçirin Data Wrangler'ı Kullanmaya Başlayın. Ayrıca bkz. ithalat çeşitli içe aktarma seçenekleri hakkında bilgi edinmek için.

Data Wrangler ile JSON verilerini içe aktarın ve analiz edin

Şimdi Data Wrangler ile JSON biçimindeki dosyaları içe aktaralım ve JSON dizeleri veya dizileri içeren sütunlarla çalışalım. Ayrıca yuvalanmış JSON'larla nasıl başa çıkılacağını da gösteriyoruz. Data Wrangler ile Amazon S3'ten JSON dosyalarını içe aktarmak sorunsuz bir süreçtir. Bu, desteklenen diğer biçimlerdeki dosyaları içe aktarmaya benzer. Dosyaları içe aktardıktan sonra, JSON dosyalarını aşağıdaki ekran görüntüsünde gösterildiği gibi önizleyebilirsiniz. Dosya türünü JSON olarak ayarladığınızdan emin olun. DETAYLAR bölmesi.

Ardından, içe aktarılan JSON dosyasındaki yapılandırılmış sütunlar üzerinde çalışalım.

Data Wrangler, JSON dosyalarındaki yapılandırılmış sütunlarla başa çıkmak için iki yeni dönüşüm sunuyor: Yapılandırılmış sütunu düzleştir ve Dizi sütununu patlat, altında bulunabilir Yapılandırılmış sütunu işle seçeneği DÖNÜŞÜM EKLE bölmesi.

uygulayarak başlayalım Dizi sütununu patlat içe aktarılan verilerimizdeki sütunlardan birine dönüştürün. Dönüşümü uygulamadan önce sütunu görebiliriz. topping olan bir JSON nesneleri dizisidir. id ve type anahtarlar.

Dönüşümü uyguladıktan sonra sonuç olarak eklenen yeni satırları gözlemleyebiliriz. Dizideki her öğe artık elde edilen DataFrame'de yeni bir satırdır.

Şimdi uygulayalım Yapılandırılmış sütunu düzleştir üzerinde dönüştürmek topping_flattened sonucunda oluşturulan sütun Dizi sütununu patlat önceki adımda uyguladığımız dönüşüm.

Dönüşümü uygulamadan önce tuşları görebiliriz. id ve type içinde topping_flattened sütun.

Dönüşümü uyguladıktan sonra artık tuşları gözlemleyebiliriz. id ve type altında topping_flattened yeni sütun olarak sütun topping_flattened_id ve topping_flattened_type, dönüşümün bir sonucu olarak oluşturulur. Ayrıca, virgülle ayrılmış anahtar adlarını girerek yalnızca belirli anahtarları düzleştirme seçeneğiniz de vardır. Düzleştirilecek tuşlar. Boş bırakılırsa, JSON dizesi veya yapısının içindeki tüm anahtarlar düzleştirilir.

Sonuç

Bu yazıda, Data Wrangler ile ORC ve JSON'daki dosya formatlarının nasıl kolayca içe aktarılacağını gösterdik. Ayrıca, JSON verilerindeki herhangi bir yapılandırılmış sütunu dönüştürmemize izin veren yeni başlatılan dönüşümleri de uyguladık. Bu, JSON dizeleri veya dizileri içeren sütunlarla çalışmayı sorunsuz bir deneyim haline getirir.

Sonraki adımlarda, gösterilen örnekleri kendi Data Wrangler görsel arayüzünüzde çoğaltmanızı öneririz. Data Wrangler ile ilgili herhangi bir sorunuz varsa, bunları yorum bölümünde bırakmaktan çekinmeyin.


Yazarlar Hakkında

Balaji Tummala Amazon SageMaker'da Yazılım Geliştirme Mühendisi. Amazon SageMaker Data Wrangler'ın desteklenmesine yardımcı olur ve yüksek performanslı ve ölçeklenebilir yazılımlar geliştirme konusunda tutkuludur. İş dışında kurgu okumaktan ve voleybol oynamaktan hoşlanıyor.

Arunprasath Şankar AWS'li bir Yapay Zeka ve Makine Öğrenimi (AI / ML) Uzman Çözüm Mimarıdır ve küresel müşterilerin yapay zeka çözümlerini bulutta etkili ve verimli bir şekilde ölçeklendirmelerine yardımcı olur. Arun boş zamanlarında bilim kurgu filmleri izlemekten ve klasik müzik dinlemekten hoşlanıyor.

Kaynak: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Zaman Damgası:

Den fazla AWS Makine Öğrenimi Blogu