Pregătiți și analizați datele JSON și ORC cu Amazon SageMaker Data Wrangler

Nodul sursă: 1600106

Amazon SageMaker Data Wrangler este o nouă capacitate de Amazon SageMaker ceea ce face ca oamenii de știință și inginerii de date să pregătească mai rapid datele pentru aplicații de învățare automată (ML) printr-o interfață vizuală. Pregătirea datelor este un pas crucial al ciclului de viață ML, iar Data Wrangler oferă o soluție end-to-end pentru a importa, pregăti, transforma, prezenta și analiza date pentru ML într-o experiență simplă, vizuală, low-code. Vă permite să vă conectați ușor și rapid la componentele AWS, cum ar fi Serviciul Amazon de stocare simplă (Amazon S3), Amazon Atena, Amazon RedShift, și Formația lacului AWSși surse externe precum Snowflake. Data Wrangler acceptă și tipuri de date standard, cum ar fi CSV și Parquet.

Data Wrangler acceptă acum, în plus, Optimized Row Columnar (CRO), formate de fișiere JavaScript Object Notation (JSON) și JSON Lines (JSONL):

  • CRO – Formatul de fișier ORC oferă o modalitate foarte eficientă de stocare a datelor Hive. A fost conceput pentru a depăși limitările celorlalte formate de fișiere Hive. Folosirea fișierelor ORC îmbunătățește performanța atunci când Hive citește, scrie și procesează date. ORC este utilizat pe scară largă în ecosistemul Hadoop.
  • JSON – Formatul de fișier JSON este un format de schimb de date ușor, utilizat în mod obișnuit.
  • JSONL – Liniile JSON, numite și JSON delimitat de linie nouă, este un format convenabil pentru stocarea datelor structurate care pot fi procesate câte o înregistrare la un moment dat.

Puteți previzualiza datele ORC, JSON și JSONL înainte de a importa seturile de date în Data Wrangler. După ce importați datele, puteți utiliza și unul dintre transformatoarele nou lansate pentru a lucra cu coloane care conțin șiruri JSON sau matrice care se găsesc în mod obișnuit în JSON imbricate.

Importați și analizați datele ORC cu Data Wrangler

Importul datelor ORC în Data Wrangler este ușor și similar cu importarea fișierelor în orice alte formate acceptate. Navigați la fișierul dvs. ORC în Amazon S3 și în DETALII panoul, alegeți ORC ca tip de fișier în timpul importului.

Dacă sunteți nou la Data Wrangler, revizuiți Începeți cu Data Wrangler. De asemenea, vezi Import pentru a afla despre diferitele opțiuni de import.

Importați și analizați datele JSON cu Data Wrangler

Acum să importăm fișiere în format JSON cu Data Wrangler și să lucrăm cu coloane care conțin șiruri sau matrice JSON. De asemenea, demonstrăm cum să faceți față JSON-urilor imbricate. Cu Data Wrangler, importarea fișierelor JSON de pe Amazon S3 este un proces fără întreruperi. Acest lucru este similar cu importarea fișierelor în orice alte formate acceptate. După ce importați fișierele, puteți previzualiza fișierele JSON așa cum se arată în următoarea captură de ecran. Asigurați-vă că setați tipul fișierului la JSON în fișierul DETALII panoul.

Apoi, să lucrăm la coloanele structurate din fișierul JSON importat.

Pentru a face față coloanelor structurate din fișierele JSON, Data Wrangler introduce două transformări noi: Aplatizați coloana structurată și Explodare coloană matrice, care poate fi găsit sub Maner coloana structurata opțiune în ADĂUGAȚI TRANSFORMARE panoul.

Să începem prin a aplica Explodare coloană matrice transforma într-una dintre coloanele din datele noastre importate. Înainte de a aplica transformarea, putem vedea coloana topping este o matrice de obiecte JSON cu id și type chei.

După ce aplicăm transformarea, putem observa noile rânduri adăugate ca rezultat. Fiecare element din matrice este acum un nou rând în DataFrame rezultat.

Acum să aplicăm Aplatizați coloana structurată transforma pe topping_flattened coloană care a fost creată ca urmare a Explodare coloană matrice transformarea pe care am aplicat-o în pasul anterior.

Înainte de a aplica transformarea, putem vedea cheile id și type în topping_flattened coloana.

După aplicarea transformării, acum putem observa cheile id și type în temeiul topping_flattened coloana ca coloane noi topping_flattened_id și topping_flattened_type, care sunt create ca urmare a transformării. De asemenea, aveți opțiunea de a aplatiza numai anumite chei introducând numele cheilor separate prin virgulă pentru Chei de aplatizat. Dacă sunt lăsate goale, toate cheile din șirul sau structura JSON sunt aplatizate.

Concluzie

În această postare, am demonstrat cum să importați cu ușurință formatele de fișiere în ORC și JSON cu Data Wrangler. De asemenea, am aplicat transformările nou lansate care ne permit să transformăm orice coloane structurate în date JSON. Acest lucru face ca lucrul cu coloane care conțin șiruri sau matrice JSON să fie o experiență perfectă.

Ca pași următori, vă recomandăm să replicați exemplele demonstrate în propria interfață vizuală Data Wrangler. Dacă aveți întrebări legate de Data Wrangler, nu ezitați să le lăsați în secțiunea de comentarii.


Despre Autori

Balaji Tummala este inginer de dezvoltare software la Amazon SageMaker. El ajută la sprijinirea Amazon SageMaker Data Wrangler și este pasionat de crearea de software performant și scalabil. În afara serviciului, îi place să citească ficțiune și să joace volei.

Arunprasath Shankar este un arhitect specializat în soluții de inteligență artificială și învățare automată (AI / ML) cu AWS, ajutând clienții globali să își scaleze soluțiile de AI în mod eficient și eficient în cloud. În timpul liber, lui Arun îi place să urmărească filme SF și să asculte muzică clasică.

Sursa: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Timestamp-ul:

Mai mult de la Blog de AWS Machine Learning