Προετοιμάστε και αναλύστε δεδομένα JSON και ORC με το Amazon SageMaker Data Wrangler

Κόμβος πηγής: 1600106

Amazon SageMaker Data Wrangler είναι μια νέα ικανότητα του Amazon Sage Maker Αυτό καθιστά ταχύτερο για τους επιστήμονες δεδομένων και τους μηχανικούς την προετοιμασία δεδομένων για εφαρμογές μηχανικής μάθησης (ML) μέσω μιας οπτικής διεπαφής. Η προετοιμασία δεδομένων είναι ένα κρίσιμο βήμα του κύκλου ζωής της ML και το Data Wrangler παρέχει μια ολοκληρωμένη λύση για εισαγωγή, προετοιμασία, μετατροπή, χαρακτηρισμό και ανάλυση δεδομένων για ML σε μια απρόσκοπτη, οπτική εμπειρία χαμηλού κώδικα. Σας επιτρέπει να συνδεθείτε εύκολα και γρήγορα με στοιχεία AWS όπως Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, να Σχηματισμός Λίμνης AWS, και εξωτερικές πηγές όπως το Snowflake. Το Data Wrangler υποστηρίζει επίσης τυπικούς τύπους δεδομένων όπως CSV και Parquet.

Το Data Wrangler τώρα υποστηρίζει επιπλέον το Optimized Row Columnar (CRO), μορφές αρχείων σημειογραφίας αντικειμένου JavaScript (JSON) και Γραμμών JSON (JSONL):

  • CRO – Η μορφή αρχείου ORC παρέχει έναν εξαιρετικά αποτελεσματικό τρόπο αποθήκευσης δεδομένων Hive. Σχεδιάστηκε για να ξεπεράσει τους περιορισμούς των άλλων μορφών αρχείων Hive. Η χρήση αρχείων ORC βελτιώνει την απόδοση όταν το Hive διαβάζει, γράφει και επεξεργάζεται δεδομένα. Το ORC χρησιμοποιείται ευρέως στο οικοσύστημα Hadoop.
  • JSON – Η μορφή αρχείου JSON είναι μια ελαφριά, ευρέως χρησιμοποιούμενη μορφή ανταλλαγής δεδομένων.
  • JSONL – Οι γραμμές JSON, που ονομάζονται επίσης JSON οριοθετημένες με νέα γραμμή, είναι μια βολική μορφή για την αποθήκευση δομημένων δεδομένων που μπορούν να υποβληθούν σε επεξεργασία μία εγγραφή τη φορά.

Μπορείτε να κάνετε προεπισκόπηση των δεδομένων ORC, JSON και JSONL πριν από την εισαγωγή των συνόλων δεδομένων στο Data Wrangler. Αφού εισαγάγετε τα δεδομένα, μπορείτε επίσης να χρησιμοποιήσετε έναν από τους μετασχηματιστές που εκκινήθηκαν πρόσφατα για να εργαστείτε με στήλες που περιέχουν συμβολοσειρές JSON ή πίνακες που βρίσκονται συνήθως σε ένθετα JSON.

Εισαγάγετε και αναλύστε δεδομένα ORC με το Data Wrangler

Η εισαγωγή δεδομένων ORC στο Data Wrangler είναι εύκολη και παρόμοια με την εισαγωγή αρχείων σε οποιαδήποτε άλλη υποστηριζόμενη μορφή. Περιηγηθείτε στο αρχείο σας ORC στο Amazon S3 και στο Περιγραφή στο παράθυρο, επιλέξτε ORC ως τύπο αρχείου κατά την εισαγωγή.

Εάν είστε νέοι στο Data Wrangler, ελέγξτε Ξεκινήστε με το Data Wrangler. Επίσης, δείτε εισαγωγή για να μάθετε για τις διάφορες επιλογές εισαγωγής.

Εισαγάγετε και αναλύστε δεδομένα JSON με το Data Wrangler

Τώρα ας εισάγουμε αρχεία σε μορφή JSON με το Data Wrangler και ας εργαστούμε με στήλες που περιέχουν συμβολοσειρές ή πίνακες JSON. Δείχνουμε επίσης πώς να αντιμετωπίζετε ένθετα JSON. Με το Data Wrangler, η εισαγωγή αρχείων JSON από το Amazon S3 είναι μια απρόσκοπτη διαδικασία. Αυτό είναι παρόμοιο με την εισαγωγή αρχείων σε οποιαδήποτε άλλη υποστηριζόμενη μορφή. Αφού εισαγάγετε τα αρχεία, μπορείτε να κάνετε προεπισκόπηση των αρχείων JSON όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης. Βεβαιωθείτε ότι έχετε ορίσει τον τύπο αρχείου σε JSON στο Περιγραφή τζάμι.

Στη συνέχεια, ας εργαστούμε σε δομημένες στήλες στο εισαγόμενο αρχείο JSON.

Για την αντιμετώπιση δομημένων στηλών σε αρχεία JSON, το Data Wrangler εισάγει δύο νέους μετασχηματισμούς: Ισιώνετε τη δομημένη στήλη και Έκρηξη στήλης πίνακα, το οποίο βρίσκεται κάτω από το Χειριστείτε δομημένη στήλη επιλογή του ΠΡΟΣΘΗΚΗ ΜΕΤΑΤΡΟΠΗΣ τζάμι.

Ας ξεκινήσουμε εφαρμόζοντας το Έκρηξη στήλης πίνακα μετατροπή σε μία από τις στήλες στα εισαγόμενα δεδομένα μας. Πριν εφαρμόσουμε τον μετασχηματισμό, μπορούμε να δούμε τη στήλη topping είναι ένας πίνακας αντικειμένων JSON με id και type κλειδιά.

Αφού εφαρμόσουμε τον μετασχηματισμό, μπορούμε να παρατηρήσουμε τις νέες σειρές που προστέθηκαν ως αποτέλεσμα. Κάθε στοιχείο στον πίνακα είναι τώρα μια νέα σειρά στο DataFrame που προκύπτει.

Τώρα ας εφαρμόσουμε το Ισιώνετε τη δομημένη στήλη μεταμόρφωση στο topping_flattened στήλη που δημιουργήθηκε ως αποτέλεσμα του Έκρηξη στήλης πίνακα μετασχηματισμό που εφαρμόσαμε στο προηγούμενο βήμα.

Πριν εφαρμόσουμε τον μετασχηματισμό, μπορούμε να δούμε τα πλήκτρα id και type στο topping_flattened στήλη.

Μετά την εφαρμογή του μετασχηματισμού, μπορούμε τώρα να παρατηρήσουμε τα πλήκτρα id και type σύμφωνα με το topping_flattened στήλη ως νέες στήλες topping_flattened_id και topping_flattened_type, τα οποία δημιουργούνται ως αποτέλεσμα του μετασχηματισμού. Έχετε επίσης την επιλογή να ισοπεδώσετε μόνο συγκεκριμένα κλειδιά εισάγοντας τα ονόματα κλειδιών διαχωρισμένα με κόμματα Κλειδιά για να ισοπεδώσετε. Εάν αφεθούν κενά, όλα τα κλειδιά μέσα στη συμβολοσειρά ή τη δομή JSON ισοπεδώνονται.

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε πώς να εισάγετε εύκολα μορφές αρχείων σε ORC και JSON με το Data Wrangler. Εφαρμόσαμε επίσης τους μετασχηματισμούς που κυκλοφόρησαν πρόσφατα και μας επιτρέπουν να μετασχηματίσουμε τυχόν δομημένες στήλες σε δεδομένα JSON. Αυτό κάνει την εργασία με στήλες που περιέχουν συμβολοσειρές ή πίνακες JSON μια απρόσκοπτη εμπειρία.

Ως επόμενα βήματα, σας συνιστούμε να αντιγράψετε τα παραδείγματα που παρουσιάζονται στη δική σας οπτική διεπαφή Data Wrangler. Εάν έχετε οποιεσδήποτε ερωτήσεις σχετικά με το Data Wrangler, μην διστάσετε να τις αφήσετε στην ενότητα σχολίων.


Σχετικά με τους Συγγραφείς

Balaji Tummala είναι Μηχανικός Ανάπτυξης Λογισμικού στο Amazon SageMaker. Βοηθά στην υποστήριξη του Amazon SageMaker Data Wrangler και είναι παθιασμένος με την κατασκευή λογισμικού απόδοσης και κλιμάκωσης. Εκτός δουλειάς, του αρέσει να διαβάζει μυθιστορήματα και να παίζει βόλεϊ.

Arunprasath Shankar είναι ένας αρχιτέκτονας ειδικών λύσεων τεχνητής νοημοσύνης και μηχανικής μάθησης (AI / ML) με το AWS, βοηθώντας τους παγκόσμιους πελάτες να κλιμακώσουν τις λύσεις AI αποτελεσματικά και αποδοτικά στο cloud. Στον ελεύθερο χρόνο του, ο Arun απολαμβάνει να παρακολουθεί ταινίες sci-fi και να ακούει κλασική μουσική.

Πηγή: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Σφραγίδα ώρας:

Περισσότερα από Ιστολόγιο μηχανικής εκμάθησης AWS