Εξισορροπήστε τα δεδομένα σας για μηχανική εκμάθηση με το Amazon SageMaker Data Wrangler

Κόμβος πηγής: 1600102

Amazon SageMaker Data Wrangler είναι μια νέα ικανότητα του Amazon Sage Maker Αυτό καθιστά ταχύτερο για τους επιστήμονες δεδομένων και τους μηχανικούς την προετοιμασία δεδομένων για εφαρμογές μηχανικής μάθησης (ML) χρησιμοποιώντας μια οπτική διεπαφή. Περιέχει πάνω από 300 ενσωματωμένους μετασχηματισμούς δεδομένων, ώστε να μπορείτε γρήγορα να κανονικοποιείτε, να μετασχηματίζετε και να συνδυάζετε λειτουργίες χωρίς να χρειάζεται να γράψετε κώδικα.

Σήμερα, είμαστε ενθουσιασμένοι που ανακοινώνουμε νέους μετασχηματισμούς που σας επιτρέπουν να εξισορροπείτε τα σύνολα δεδομένων σας εύκολα και αποτελεσματικά για εκπαίδευση μοντέλων ML. Δείχνουμε πώς λειτουργούν αυτοί οι μετασχηματισμοί σε αυτήν την ανάρτηση.

Νέοι χειριστές εξισορρόπησης

Οι πρόσφατα ανακοινωθέντες φορείς εξισορρόπησης ομαδοποιούνται κάτω από το Στοιχεία υπολοίπου τύπος μετασχηματισμού στο ΠΡΟΣΘΗΚΗ ΜΕΤΑΜΟΡΦΩΣΗΣ τζάμι.

Επί του παρόντος, οι τελεστές μετασχηματισμού υποστηρίζουν μόνο προβλήματα δυαδικής ταξινόμησης. Σε προβλήματα δυαδικής ταξινόμησης, ο ταξινομητής έχει την αποστολή να ταξινομήσει κάθε δείγμα σε μία από τις δύο κατηγορίες. Όταν ο αριθμός των δειγμάτων στην πλειοψηφική τάξη (μεγαλύτερη) είναι σημαντικά μεγαλύτερος από τον αριθμό των δειγμάτων στην κατηγορία μειοψηφίας (μικρότερη), το σύνολο δεδομένων θεωρείται μη ισορροπημένο. Αυτή η απόκλιση είναι πρόκληση για τους αλγόριθμους και τους ταξινομητές ML επειδή η διαδικασία εκπαίδευσης τείνει να είναι προκατειλημμένη προς την πλειοψηφική τάξη.

Σχέδια εξισορρόπησης, τα οποία επαυξάνουν τα δεδομένα για να είναι πιο ισορροπημένα πριν από την εκπαίδευση του ταξινομητή, προτάθηκαν για την αντιμετώπιση αυτής της πρόκλησης. Οι απλούστερες μέθοδοι εξισορρόπησης είναι είτε υπερδειγματοληψία της κατηγορίας μειοψηφίας με αντιγραφή δειγμάτων μειοψηφίας είτε υποδειγματοληψία της πλειοψηφικής κατηγορίας αφαιρώντας τα πλειοψηφικά δείγματα. Η ιδέα της προσθήκης συνθετικών δειγμάτων μειοψηφίας σε δεδομένα πίνακα προτάθηκε για πρώτη φορά στην Τεχνική Υπερδειγματοληψίας Συνθετικής Μειονότητας (SMOTE), όπου τα συνθετικά δείγματα μειοψηφίας δημιουργούνται με παρεμβολή ζευγών των αρχικών σημείων μειοψηφίας. Το SMOTE και άλλα σχήματα εξισορρόπησης μελετήθηκαν εκτενώς εμπειρικά και αποδείχθηκε ότι βελτιώνουν την απόδοση πρόβλεψης σε διάφορα σενάρια, σύμφωνα με τη δημοσίευση Σε SMOTE, ή όχι σε SMOTE.

Το Data Wrangler υποστηρίζει πλέον τους ακόλουθους τελεστές εξισορρόπησης ως μέρος του Στοιχεία υπολοίπου μεταμορφώνω:

  • Τυχαία υπερδειγματοληψία – Τυχαία αντιγραφή δειγμάτων μειοψηφίας
  • Τυχαία υποδειγματοληψία – Αφαιρέστε τυχαία τα περισσότερα δείγματα
  • ΚΑΜΩΤ – Δημιουργήστε συνθετικά δείγματα μειοψηφίας παρεμβάλλοντας πραγματικά δείγματα μειοψηφίας

Ας συζητήσουμε τώρα λεπτομερώς τους διαφορετικούς τελεστές εξισορρόπησης.

Τυχαίο υπερδείγμα

Η τυχαία υπερδειγματοληψία περιλαμβάνει την επιλογή τυχαίων παραδειγμάτων από την κατηγορία μειοψηφίας με αντικατάσταση και τη συμπλήρωση των δεδομένων εκπαίδευσης με πολλαπλά αντίγραφα αυτής της παρουσίας. Επομένως, είναι πιθανό μια μεμονωμένη παρουσία να επιλέγεται πολλές φορές. Με την Τυχαίος υπερδειγματοληψία τύπος μετασχηματισμού, το Data Wrangler υπερδειγματοληψία αυτόματα της κλάσης μειοψηφίας για εσάς, αντιγράφοντας τα δείγματα μειοψηφίας στο σύνολο δεδομένων σας.

Τυχαίο υποδείγμα

Η τυχαία υποδειγματοληψία είναι το αντίθετο της τυχαίας υπερδειγματοληψίας. Αυτή η μέθοδος επιδιώκει να επιλέξει τυχαία και να αφαιρέσει δείγματα από την κλάση πλειοψηφίας, μειώνοντας κατά συνέπεια τον αριθμό των παραδειγμάτων στην κλάση πλειοψηφίας στα μετασχηματισμένα δεδομένα. ο Τυχαίος υποδείγμα Ο τύπος μετασχηματισμού επιτρέπει στο Data Wrangler να υποδειγματίζει αυτόματα την κλάση πλειοψηφίας για εσάς, καταργώντας τα πλειοψηφικά δείγματα στο σύνολο δεδομένων σας.

ΚΑΜΩΤ

Στο SMOTE, δείγματα συνθετικής μειοψηφίας προστίθενται στα δεδομένα για να επιτευχθεί η επιθυμητή αναλογία μεταξύ δειγμάτων πλειοψηφίας και μειοψηφίας. Τα συνθετικά δείγματα παράγονται με παρεμβολή ζευγών των αρχικών σημείων μειοψηφίας. ο ΚΑΜΩΤ Το transform υποστηρίζει εξισορρόπηση συνόλων δεδομένων συμπεριλαμβανομένων αριθμητικών και μη αριθμητικών χαρακτηριστικών. Τα αριθμητικά χαρακτηριστικά παρεμβάλλονται με σταθμισμένο μέσο όρο. Ωστόσο, δεν μπορείτε να εφαρμόσετε παρεμβολή σταθμισμένου μέσου όρου σε μη αριθμητικά χαρακτηριστικά—είναι αδύνατο να υπολογιστεί ο μέσος όρος “dog” και “cat” για παράδειγμα. Αντίθετα, τα μη αριθμητικά χαρακτηριστικά αντιγράφονται από οποιοδήποτε αρχικό δείγμα μειοψηφίας σύμφωνα με το μέσο βάρος.

Για παράδειγμα, εξετάστε δύο δείγματα, το Α και το Β:

A = [1, 2, "dog", "carnivore"]
B = [0, 0, "cow", "herbivore"]

Ας υποθέσουμε ότι τα δείγματα παρεμβάλλονται με βάρη 0.3 για το δείγμα Α και 0.7 για το δείγμα Β. Επομένως, υπολογίζεται ο μέσος όρος των αριθμητικών πεδίων με αυτά τα βάρη για να αποδώσουν 0.3 και 0.6, αντίστοιχα. Το επόμενο πεδίο συμπληρώνεται με “dog” με πιθανότητα 0.3 και “cow” με πιθανότητα 0.7. Ομοίως, το επόμενο ισούται “carnivore” με πιθανότητα 0.3 και “herbivore” με πιθανότητα 0.7. Η τυχαία αντιγραφή γίνεται ανεξάρτητα για κάθε χαρακτηριστικό, επομένως το δείγμα C παρακάτω είναι ένα πιθανό αποτέλεσμα:

C = [0.3, 0.6, "dog", "herbivore"]

Αυτό το παράδειγμα δείχνει πώς η διαδικασία παρεμβολής θα μπορούσε να οδηγήσει σε μη ρεαλιστικά συνθετικά δείγματα, όπως ένα φυτοφάγο σκύλο. Αυτό είναι πιο κοινό με κατηγορικά χαρακτηριστικά, αλλά μπορεί να συμβεί και σε αριθμητικά χαρακτηριστικά. Παρόλο που ορισμένα συνθετικά δείγματα μπορεί να είναι μη ρεαλιστικά, το SMOTE θα μπορούσε να βελτιώσει την απόδοση ταξινόμησης.

Για να δημιουργήσει ευρετικά πιο ρεαλιστικά δείγματα, το SMOTE παρεμβάλλει μόνο ζεύγη που είναι κοντά στο χώρο χαρακτηριστικών. Τεχνικά, κάθε δείγμα παρεμβάλλεται μόνο με τους k-πλησιέστερους γείτονές του, όπου μια κοινή τιμή για το k είναι 5. Στην εφαρμογή του SMOTE, χρησιμοποιούνται μόνο τα αριθμητικά χαρακτηριστικά για τον υπολογισμό των αποστάσεων μεταξύ των σημείων (οι αποστάσεις χρησιμοποιούνται για τον προσδιορισμό της γειτονιάς κάθε δείγματος). Είναι σύνηθες να κανονικοποιούνται τα αριθμητικά χαρακτηριστικά πριν από τον υπολογισμό των αποστάσεων. Σημειώστε ότι τα αριθμητικά χαρακτηριστικά κανονικοποιούνται μόνο για τον υπολογισμό της απόστασης. τα προκύπτοντα παρεμβαλλόμενα χαρακτηριστικά δεν κανονικοποιούνται.

Ας ισορροπήσουμε τώρα το Σύνολο δεδομένων για ενήλικες (γνωστό και ως σύνολο δεδομένων απογραφής εισοδήματος) χρησιμοποιώντας τον ενσωματωμένο μετασχηματισμό SMOTE που παρέχεται από το Data Wrangler. Αυτό το πολυμεταβλητό σύνολο δεδομένων περιλαμβάνει έξι αριθμητικά χαρακτηριστικά και οκτώ χαρακτηριστικά συμβολοσειρών. Ο στόχος του συνόλου δεδομένων είναι μια εργασία δυαδικής ταξινόμησης για να προβλέψει εάν το εισόδημα ενός ατόμου υπερβαίνει τα 50,000 $ ετησίως ή όχι με βάση τα δεδομένα απογραφής.

Μπορείτε επίσης να δείτε οπτικά την κατανομή των κλάσεων δημιουργώντας ένα ιστόγραμμα χρησιμοποιώντας το Τύπος ανάλυσης ιστογράμματος στο Data Wrangler. Η κατανομή στόχου είναι ανισόρροπη και η αναλογία των εγγραφών με >50K προς την <=50K είναι περίπου 1:4.

Μπορούμε να εξισορροπήσουμε αυτά τα δεδομένα χρησιμοποιώντας το ΚΑΜΩΤ χειριστής που βρέθηκε κάτω από το Δεδομένα Ισοζυγίου μετασχηματισμός στο Data Wrangler με τα ακόλουθα βήματα:

  1. Επιλέξτε income ως στήλη στόχος.

Θέλουμε η κατανομή αυτής της στήλης να είναι πιο ισορροπημένη.

  1. Ρυθμίστε την επιθυμητή αναλογία σε 0.66.

Επομένως, η αναλογία μεταξύ του αριθμού των δειγμάτων μειοψηφίας και πλειοψηφίας είναι 2:3 (αντί για την ακατέργαστη αναλογία 1:4).

  1. Επιλέξτε ΚΑΜΩΤ ως μετασχηματισμός προς χρήση.
  2. Αφήστε τις προεπιλεγμένες τιμές για Αριθμός γειτόνων στο μέσο όρο και αν θα ομαλοποιηθεί ή όχι.
  3. Επιλέξτε Προβολή για να λάβετε μια προεπισκόπηση του εφαρμοζόμενου μετασχηματισμού και επιλέξτε Πρόσθεση για να προσθέσετε το μετασχηματισμό στη ροή δεδομένων σας.

Τώρα μπορούμε να δημιουργήσουμε ένα νέο ιστόγραμμα παρόμοιο με αυτό που κάναμε πριν για να δούμε την ευθυγραμμισμένη κατανομή των κλάσεων. Το παρακάτω σχήμα δείχνει το ιστόγραμμα του income στήλη μετά την εξισορρόπηση του συνόλου δεδομένων. Η κατανομή των δειγμάτων είναι τώρα 3:2, όπως προβλεπόταν.

Μπορούμε τώρα να εξάγουμε αυτά τα νέα ισορροπημένα δεδομένα και να εκπαιδεύσουμε έναν ταξινομητή σε αυτά, ο οποίος θα μπορούσε να αποφέρει ανώτερη ποιότητα πρόβλεψης.

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε πώς να εξισορροπήσετε τα μη ισορροπημένα δεδομένα δυαδικής ταξινόμησης χρησιμοποιώντας το Data Wrangler. Το Data Wrangler προσφέρει τρεις τελεστές εξισορρόπησης: τυχαία υποδειγματοληψία, τυχαία υπερδειγματοληψία και SMOTE για την εξισορρόπηση των δεδομένων στα μη ισορροπημένα σύνολα δεδομένων σας. Και οι τρεις μέθοδοι που προσφέρονται από το Data Wrangler υποστηρίζουν πολυτροπικά δεδομένα, συμπεριλαμβανομένων αριθμητικών και μη αριθμητικών χαρακτηριστικών.

Ως επόμενα βήματα, σας συνιστούμε να επαναλάβετε το παράδειγμα σε αυτήν την ανάρτηση στη ροή δεδομένων σας στο Data Wrangler για να δείτε τι συζητήσαμε στην πράξη. Εάν είστε νέοι στο Data Wrangler ή SageMaker Στούντιο, αναφέρομαι σε Ξεκινήστε με το Data Wrangler. Εάν έχετε οποιεσδήποτε ερωτήσεις σχετικά με αυτήν την ανάρτηση, προσθέστε την στην ενότητα σχολίων.


Σχετικά με τους Συγγραφείς

Γιοτάμ Έλορ είναι Ανώτερος Εφαρμοσμένος Επιστήμονας στο Amazon SageMaker. Τα ερευνητικά του ενδιαφέροντα αφορούν τη μηχανική μάθηση, ιδιαίτερα για τα δεδομένα σε πίνακα.

Arunprasath Shankar είναι ένας αρχιτέκτονας ειδικών λύσεων τεχνητής νοημοσύνης και μηχανικής μάθησης (AI / ML) με το AWS, βοηθώντας τους παγκόσμιους πελάτες να κλιμακώσουν τις λύσεις AI αποτελεσματικά και αποδοτικά στο cloud. Στον ελεύθερο χρόνο του, ο Arun απολαμβάνει να παρακολουθεί ταινίες sci-fi και να ακούει κλασική μουσική.

Πηγή: https://aws.amazon.com/blogs/machine-learning/balance-your-data-for-machine-learning-with-amazon-sagemaker-data-wrangler/

Σφραγίδα ώρας:

Περισσότερα από Ιστολόγιο μηχανικής εκμάθησης AWS