Εκκινήστε εργασίες επεξεργασίας με λίγα κλικ χρησιμοποιώντας το Amazon SageMaker Data Wrangler

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Amazon SageMaker Data Wrangler καθιστά πιο γρήγορο για τους επιστήμονες και τους μηχανικούς δεδομένων την προετοιμασία δεδομένων για εφαρμογές μηχανικής μάθησης (ML) χρησιμοποιώντας μια οπτική διεπαφή. Προηγουμένως, όταν δημιουργήσατε μια ροή δεδομένων Data Wrangler, μπορούσατε να επιλέξετε διαφορετικές επιλογές εξαγωγής για να ενσωματώσετε εύκολα αυτή τη ροή δεδομένων στη γραμμή επεξεργασίας δεδομένων σας. Το Data Wrangler προσφέρει επιλογές εξαγωγής σε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Αγωγοί SageMaker, να Κατάστημα χαρακτηριστικών SageMaker, ή ως κώδικας Python. Οι επιλογές εξαγωγής δημιουργούν ένα σημειωματάριο Jupyter και απαιτούν να εκτελέσετε τον κώδικα για να ξεκινήσετε μια εργασία επεξεργασίας που διευκολύνεται από Επεξεργασία SageMaker.

Είμαστε στην ευχάριστη θέση να ανακοινώσουμε τη γενική κυκλοφορία των κόμβων προορισμού και τη δυνατότητα Δημιουργία εργασίας στο Data Wrangler. Αυτή η δυνατότητα σάς δίνει τη δυνατότητα να εξάγετε όλους τους μετασχηματισμούς που κάνατε σε ένα σύνολο δεδομένων σε έναν κόμβο προορισμού με λίγα μόνο κλικ. Αυτό σας επιτρέπει να δημιουργείτε εργασίες επεξεργασίας δεδομένων και να κάνετε εξαγωγή στο Amazon S3 αποκλειστικά μέσω της οπτικής διεπαφής χωρίς να χρειάζεται να δημιουργείτε, να εκτελείτε ή να διαχειρίζεστε φορητούς υπολογιστές Jupyter, βελτιώνοντας έτσι την εμπειρία χαμηλού κώδικα. Για να δείξουμε αυτό το νέο χαρακτηριστικό, χρησιμοποιούμε το Τιτανικό σύνολο δεδομένων και δείξτε πώς να εξάγετε τους μετασχηματισμούς σας σε έναν κόμβο προορισμού.

Προϋποθέσεις

Πριν μάθουμε πώς να χρησιμοποιούμε τους κόμβους προορισμού με το Data Wrangler, θα πρέπει ήδη να καταλάβετε πώς να το κάνετε πρόσβαση και ξεκινήστε με το Data Wrangler. Πρέπει επίσης να γνωρίζετε τι α ροή δεδομένων σημαίνει με περιεχόμενο στο Data Wrangler και πώς να δημιουργήσετε ένα εισάγοντας τα δεδομένα σας από τις διαφορετικές πηγές δεδομένων που υποστηρίζει το Data Wrangler.

Επισκόπηση λύσεων

Εξετάστε την ακόλουθη ροή δεδομένων με όνομα example-titanic.flow:

Εισάγει το σύνολο δεδομένων Titanic τρεις φορές. Μπορείτε να δείτε αυτές τις διαφορετικές εισαγωγές ως ξεχωριστούς κλάδους στη ροή δεδομένων.
Για κάθε κλάδο, εφαρμόζει ένα σύνολο μετασχηματισμών και απεικονίσεων.
Ενώνει τους κλάδους σε έναν μόνο κόμβο με όλους τους μετασχηματισμούς και τις απεικονίσεις.

Με αυτήν τη ροή, ίσως θέλετε να επεξεργαστείτε και να αποθηκεύσετε τμήματα των δεδομένων σας σε ένα συγκεκριμένο υποκατάστημα ή τοποθεσία.

Στα παρακάτω βήματα, δείχνουμε πώς να δημιουργήσετε κόμβους προορισμού, να τους εξάγετε στο Amazon S3 και να δημιουργήσετε και να ξεκινήσετε μια εργασία επεξεργασίας.

Δημιουργήστε έναν κόμβο προορισμού

Μπορείτε να χρησιμοποιήσετε την ακόλουθη διαδικασία για να δημιουργήσετε κόμβους προορισμού και να τους εξαγάγετε σε έναν κάδο S3:

Προσδιορίστε ποια μέρη του αρχείου ροής (μετασχηματισμοί) θέλετε να αποθηκεύσετε.
Επιλέξτε το σύμβολο συν δίπλα στους κόμβους που αντιπροσωπεύουν τους μετασχηματισμούς που θέλετε να εξαγάγετε. (Εάν πρόκειται για συμπτυγμένο κόμβο, πρέπει να επιλέξετε το εικονίδιο επιλογών (τρεις κουκκίδες) για τον κόμβο).
Hover πάνω Προσθήκη προορισμού.
Επιλέξτε Amazon S3.
Καθορίστε τα πεδία όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.
Για τον δεύτερο κόμβο σύνδεσης, ακολουθήστε τα ίδια βήματα για να προσθέσετε το Amazon S3 ως προορισμό και να καθορίσετε τα πεδία.

Μπορείτε να επαναλάβετε αυτά τα βήματα όσες φορές χρειάζεστε για όσους κόμβους θέλετε στη ροή δεδομένων σας. Αργότερα, επιλέγετε ποιους κόμβους προορισμού θα συμπεριλάβετε στην εργασία επεξεργασίας σας.

Ξεκινήστε μια εργασία επεξεργασίας

Χρησιμοποιήστε την ακόλουθη διαδικασία για να δημιουργήσετε μια εργασία επεξεργασίας και επιλέξτε τον κόμβο προορισμού στον οποίο θέλετε να εξαγάγετε:

Στις Ροή δεδομένων καρτέλα, επιλέξτε Δημιουργήστε εργασία.
Για Όνομα εργασίας¸ εισαγάγετε το όνομα της εργασίας εξαγωγής.
Επιλέξτε τους κόμβους προορισμού που θέλετε να εξαγάγετε.
Προαιρετικά, καθορίστε το Υπηρεσία διαχείρισης κλειδιών AWS (AWS KMS) κλειδί ARN.

Το κλειδί KMS είναι ένα κρυπτογραφικό κλειδί που μπορείτε να χρησιμοποιήσετε για την προστασία των δεδομένων σας. Για περισσότερες πληροφορίες σχετικά με τα κλειδιά KMS, ανατρέξτε στο Οδηγός προγραμματιστή κλειδιού AWS.

Επιλέξτε Στη συνέχεια, 2. Διαμόρφωση εργασίας.
Προαιρετικά, μπορείτε να διαμορφώσετε την εργασία σύμφωνα με τις ανάγκες σας, αλλάζοντας τον τύπο ή τον αριθμό παρουσίασης ή προσθέτοντας τυχόν ετικέτες για συσχέτιση με την εργασία.
Επιλέξτε τρέξιμο να τρέξει τη δουλειά.

Ένα μήνυμα επιτυχίας εμφανίζεται όταν η εργασία δημιουργηθεί με επιτυχία.

Δείτε τα τελικά δεδομένα

Τέλος, μπορείτε να χρησιμοποιήσετε τα παρακάτω βήματα για να προβάλετε τα εξαγόμενα δεδομένα:

Αφού δημιουργήσετε την εργασία, επιλέξτε τον παρεχόμενο σύνδεσμο.

Ανοίγει μια νέα καρτέλα που δείχνει την εργασία επεξεργασίας στην κονσόλα SageMaker.

Όταν ολοκληρωθεί η εργασία, ελέγξτε τα εξαγόμενα δεδομένα στην κονσόλα Amazon S3.

Θα πρέπει να δείτε έναν νέο φάκελο με το όνομα εργασίας που επιλέξατε.

Επιλέξτε το όνομα εργασίας για να προβάλετε ένα αρχείο CSV (ή πολλά αρχεία) με τα τελικά δεδομένα.

FAQ

Σε αυτήν την ενότητα, εξετάζουμε μερικές συχνές ερωτήσεις σχετικά με αυτήν τη νέα δυνατότητα:

Τι έγινε με την καρτέλα Εξαγωγή; Με αυτήν τη νέα δυνατότητα, καταργήσαμε το εξαγωγή καρτέλα από το Data Wrangler. Μπορείτε ακόμα να διευκολύνετε τη λειτουργία εξαγωγής μέσω των σημειωματάριων Jupyter που δημιούργησε το Data Wrangler από οποιουσδήποτε κόμβους δημιουργήσατε στη ροή δεδομένων με τα ακόλουθα βήματα:

1. Επιλέξτε το σύμβολο συν δίπλα στον κόμβο που θέλετε να εξαγάγετε.
2. Επιλέξτε Εξαγωγή στο.
3. Επιλέξτε Amazon S3 (μέσω Jupyter Notebook).
4. Εκτελέστε το σημειωματάριο Jupyter.

Πόσους κόμβους προορισμών μπορώ να συμπεριλάβω σε μια εργασία; Υπάρχουν το πολύ 10 προορισμοί ανά εργασία επεξεργασίας.
Πόσους κόμβους προορισμού μπορώ να έχω σε ένα αρχείο ροής; Μπορείτε να έχετε όσους κόμβους προορισμού θέλετε.
Μπορώ να προσθέσω μετασχηματισμούς μετά τους κόμβους προορισμού μου; Όχι, η ιδέα είναι ότι οι κόμβοι προορισμού είναι τερματικοί κόμβοι που δεν έχουν περαιτέρω βήματα στη συνέχεια.
Ποιες είναι οι υποστηριζόμενες πηγές που μπορώ να χρησιμοποιήσω με τους κόμβους προορισμού; Από τη στιγμή που γράφονται αυτές οι γραμμές, υποστηρίζουμε μόνο το Amazon S3 ως πηγή προορισμού. Υποστήριξη για περισσότερους τύπους πηγών προορισμού θα προστεθεί στο μέλλον. Επικοινωνήστε αν υπάρχει κάποιο συγκεκριμένο που θα θέλατε να δείτε.

Χαρακτηριστικά

Σε αυτήν την ανάρτηση, δείξαμε πώς να χρησιμοποιείτε τους κόμβους προορισμού που κυκλοφόρησαν πρόσφατα για να δημιουργήσετε εργασίες επεξεργασίας και να αποθηκεύσετε τα μετασχηματισμένα σύνολα δεδομένων σας απευθείας στο Amazon S3 μέσω της οπτικής διεπαφής Data Wrangler. Με αυτήν την πρόσθετη δυνατότητα, έχουμε βελτιώσει την εμπειρία χαμηλού κώδικα που βασίζεται σε εργαλεία του Data Wrangler.

Ως επόμενα βήματα, σας συνιστούμε να δοκιμάσετε το παράδειγμα που παρουσιάζεται σε αυτήν την ανάρτηση. Εάν έχετε οποιεσδήποτε ερωτήσεις ή θέλετε να μάθετε περισσότερα, δείτε εξαγωγή ή αφήστε μια ερώτηση στην ενότητα σχολίων.

Σχετικά με τους Συγγραφείς

Αλφόνσο Όστιν-Ριβέρα είναι Μηχανικός Front End στο Amazon SageMaker Data Wrangler. Είναι παθιασμένος με τη δημιουργία διαισθητικών εμπειριών χρήστη που προκαλούν χαρά. Στον ελεύθερο χρόνο του, μπορείτε να τον βρείτε να παλεύει με τη βαρύτητα σε ένα γυμναστήριο αναρρίχησης βράχου ή έξω να πετάει το drone του.

Πάρσα Σαχμποντάγκι είναι Τεχνικός Συγγραφέας στο AWS που ειδικεύεται στη μηχανική μάθηση και την τεχνητή νοημοσύνη. Γράφει την τεχνική τεκμηρίωση για το Amazon SageMaker Data Wrangler και το Amazon SageMaker Feature Store. Στον ελεύθερο χρόνο του, του αρέσει ο διαλογισμός, η ακρόαση ηχητικών βιβλίων, η άρση βαρών και η παρακολούθηση stand-up comedy. Δεν θα γίνει ποτέ stand-up κωμικός, αλλά τουλάχιστον η μαμά του πιστεύει ότι είναι αστείος.

Balaji Tummala είναι Μηχανικός Ανάπτυξης Λογισμικού στο Amazon SageMaker. Βοηθά στην υποστήριξη του Amazon SageMaker Data Wrangler και είναι παθιασμένος με την κατασκευή λογισμικού απόδοσης και κλιμάκωσης. Εκτός δουλειάς, του αρέσει να διαβάζει μυθιστορήματα και να παίζει βόλεϊ.

Arunprasath Shankar είναι ένας αρχιτέκτονας ειδικών λύσεων τεχνητής νοημοσύνης και μηχανικής μάθησης (AI / ML) με το AWS, βοηθώντας τους παγκόσμιους πελάτες να κλιμακώσουν τις λύσεις AI αποτελεσματικά και αποδοτικά στο cloud. Στον ελεύθερο χρόνο του, ο Arun απολαμβάνει να παρακολουθεί ταινίες sci-fi και να ακούει κλασική μουσική.