Εικόνα από το Bing Image Creator
Η Διερευνητική Ανάλυση Δεδομένων (EDA) είναι η πιο σημαντική εργασία που πρέπει να πραγματοποιηθεί στην αρχή κάθε έργου επιστήμης δεδομένων.
Ουσιαστικά, περιλαμβάνει την ενδελεχή εξέταση και τον χαρακτηρισμό των δεδομένων σας προκειμένου να βρεθεί η βάση τους χαρακτηριστικά, δυνατόν ανωμαλίες, και κρυμμένο πρότυπα και σχέσεις.
Αυτή η κατανόηση των δεδομένων σας είναι αυτό που θα κάνει τελικά καθοδήγηση στα ακόλουθα βήματα του αγωγού μηχανικής μάθησης, από την προεπεξεργασία δεδομένων έως τη δημιουργία μοντέλων και την ανάλυση των αποτελεσμάτων.
Η διαδικασία του EDA περιλαμβάνει βασικά τρία κύρια καθήκοντα:
- Βήμα 1: Επισκόπηση συνόλου δεδομένων και περιγραφικές στατιστικές
- Βήμα 2: Αξιολόγηση χαρακτηριστικών και οπτικοποίηση, να
- Βήμα 3: Αξιολόγηση Ποιότητας Δεδομένων
Όπως ίσως έχετε μαντέψει, καθεμία από αυτές τις εργασίες μπορεί να περιλαμβάνει έναν αρκετά περιεκτικό όγκο αναλύσεων, οι οποίες θα σας κάνουν εύκολα κόβετε σε φέτες, εκτυπώνετε και σχεδιάζετε τα πλαίσια δεδομένων των panda σας σαν τρελός.
Εκτός αν επιλέξετε το κατάλληλο εργαλείο για τη δουλειά.
Σε αυτό το άρθρο, θα βουτήξουμε κάθε βήμα μιας αποτελεσματικής διαδικασίας EDAκαι συζητήστε γιατί πρέπει να στραφείτε ydata-profiling στο one-stop shop σας για να το κατακτήσετε.
Προς την να επιδείξουν βέλτιστες πρακτικές και να διερευνήσουν γνώσεις, θα χρησιμοποιήσουμε το Σύνολο δεδομένων εισοδήματος απογραφής ενηλίκων, ελεύθερα διαθέσιμο στο Kaggle ή το UCI Repository (Άδεια: CC0: Δημόσιος Τομέας).
Όταν παίρνουμε για πρώτη φορά στα χέρια μας ένα άγνωστο σύνολο δεδομένων, υπάρχει μια αυτόματη σκέψη που εμφανίζεται αμέσως: Με τι δουλεύω;
Πρέπει να κατανοήσουμε βαθιά τα δεδομένα μας για να τα χειριζόμαστε αποτελεσματικά σε μελλοντικές εργασίες μηχανικής εκμάθησης
Ως εμπειρικός κανόνας, παραδοσιακά ξεκινάμε χαρακτηρίζοντας τα δεδομένα σε σχέση με τον αριθμό των παρατηρήσεις, αριθμός και τύπους χαρακτηριστικών, Συνολικά ποσοστό που λείπει, και ποσοστό των αντίγραφο παρατηρήσεις.
Με μερικούς χειρισμούς από πάντα και το σωστό φύλλο εξαπάτησης, θα μπορούσαμε τελικά να εκτυπώσουμε τις παραπάνω πληροφορίες με μερικά σύντομα αποσπάσματα κώδικα:
Επισκόπηση συνόλου δεδομένων: Σύνολο δεδομένων απογραφής ενηλίκων. Αριθμός παρατηρήσεων, χαρακτηριστικά, τύποι χαρακτηριστικών, διπλότυπες σειρές και τιμές που λείπουν. Απόσπασμα από τον συγγραφέα.
Συνολικά, η μορφή εξόδου δεν είναι ιδανική… Εάν είστε εξοικειωμένοι με τα πάντα, θα γνωρίζετε επίσης το πρότυπο modus operandi για την έναρξη μιας διαδικασίας EDA — df.describe()
:
Σύνολο δεδομένων ενηλίκων: Κύρια στατιστικά στοιχεία που παρουσιάζονται με df.describe (). Εικόνα από συγγραφέα.
Αυτό, ωστόσο, μόνο εξετάζει αριθμητικά χαρακτηριστικά. Θα μπορούσαμε να χρησιμοποιήσουμε α df.describe(include='object')
για να εκτυπώσετε κάποιες πρόσθετες πληροφορίες για κατηγορηματικά χαρακτηριστικά (μέτρηση, μοναδικός, τρόπος, συχνότητα), αλλά ένας απλός έλεγχος των υπαρχουσών κατηγοριών θα περιλάμβανε κάτι λίγο πιο περίπλοκο:
Επισκόπηση συνόλου δεδομένων: Σύνολο δεδομένων απογραφής ενηλίκων. Εκτύπωση των υπαρχουσών κατηγοριών και των αντίστοιχων συχνοτήτων για κάθε κατηγορικό χαρακτηριστικό σε δεδομένα. Απόσπασμα από τον συγγραφέα.
Ωστόσο, μπορούμε να το κάνουμε αυτό - και μαντέψτε, όλες οι επόμενες εργασίες EDA! - σε μια γραμμή κώδικα, με τη χρήση ydata-profiling:
Αναφορά προφίλ του συνόλου δεδομένων απογραφής ενηλίκων, με χρήση ydata-profiling. Απόσπασμα από τον συγγραφέα.
Ο παραπάνω κώδικας δημιουργεί μια πλήρη αναφορά προφίλ των δεδομένων, το οποίο μπορούμε να χρησιμοποιήσουμε για να προχωρήσουμε περαιτέρω τη διαδικασία EDA μας, χωρίς να χρειάζεται να γράψουμε άλλο κώδικα!
Θα εξετάσουμε τις διάφορες ενότητες της αναφοράς στις επόμενες ενότητες. Σε ότι αφορά το γενικά χαρακτηριστικά των δεδομένων, όλες οι πληροφορίες που αναζητούσαμε περιλαμβάνονται στο Επισκόπηση τμήμα:
ydata-profiling: Αναφορά προφίλ δεδομένων — Επισκόπηση συνόλου δεδομένων. Εικόνα από τον συγγραφέα.
Μπορούμε να δούμε ότι το σύνολο δεδομένων μας περιλαμβάνει 15 χαρακτηριστικά και 32561 παρατηρήσεις, με 23 διπλές εγγραφές και συνολικό ποσοστό ελλείψεων 0.9%.
Επιπλέον, το σύνολο δεδομένων έχει αναγνωριστεί σωστά ως α πίνακα δεδομένων, και μάλλον ετερογενής, παρουσιάζοντας και τα δύο αριθμητικά και κατηγορικά χαρακτηριστικά. Φόρουμ δεδομένα χρονοσειρών, που έχει εξάρτηση από το χρόνο και παρουσιάζει διαφορετικούς τύπους μοτίβων, ydata-profiling
θα ενσωμάτωνε άλλα στατιστικά στοιχεία και αναλύσεις στην έκθεση.
Μπορούμε να επιθεωρήσουμε περαιτέρω το ακατέργαστα δεδομένα και υπάρχουσες διπλές εγγραφές για να έχετε μια συνολική κατανόηση των χαρακτηριστικών, πριν προχωρήσετε σε πιο σύνθετη ανάλυση:
ydata-profiling: Αναφορά προφίλ δεδομένων — Δείγμα προεπισκόπησης. Εικόνα από τον συγγραφέα.
Από τη σύντομη προεπισκόπηση δείγματος του δείγματος δεδομένων, μπορούμε να δούμε αμέσως ότι, παρόλο που το σύνολο δεδομένων έχει χαμηλό ποσοστό ελλείποντων δεδομένων συνολικά, κάποια χαρακτηριστικά μπορεί να επηρεαστούν από αυτό περισσότερο από άλλους. Μπορούμε επίσης να εντοπίσουμε ένα μάλλον σημαντικό αριθμό κατηγοριών για ορισμένα χαρακτηριστικά και χαρακτηριστικά με αξία 0 (ή τουλάχιστον με σημαντικό αριθμό 0).
ydata-profiling: Αναφορά προφίλ δεδομένων — Προεπισκόπηση διπλότυπων σειρών. Εικόνα από τον συγγραφέα.
Σχετικά με τις διπλές σειρές, δεν θα ήταν παράξενο να βρούμε «επαναλαμβανόμενες» παρατηρήσεις δεδομένου ότι τα περισσότερα χαρακτηριστικά αντιπροσωπεύουν κατηγορίες όπου πολλά άτομα μπορεί να «ταιριάζουν» ταυτόχρονα.
Ωστόσο, ίσως α "οσμή δεδομένων" θα μπορούσε να είναι ότι αυτές οι παρατηρήσεις μοιράζονται το ίδιο age
τιμές (που είναι εύλογο) και το ίδιο ακριβώς fnlwgt
που, λαμβάνοντας υπόψη τις παρουσιαζόμενες αξίες, φαίνεται πιο δύσκολο να πιστέψει κανείς. Θα χρειαζόταν λοιπόν περαιτέρω ανάλυση, αλλά θα έπρεπε πιθανότατα απορρίψτε αυτά τα διπλότυπα αργότερα.
Συνολικά, η επισκόπηση δεδομένων μπορεί να είναι μια απλή ανάλυση, αλλά μία εξαιρετικά επιδραστικό, καθώς θα μας βοηθήσει να ορίσουμε τις επικείμενες εργασίες στη διάθεσή μας.
Αφού ρίξουμε μια ματιά στους συνολικούς περιγραφείς δεδομένων, πρέπει να το κάνουμε μεγεθύνετε τις δυνατότητες του συνόλου δεδομένων μας, προκειμένου να λάβετε κάποιες πληροφορίες για τις μεμονωμένες ιδιότητές τους — Μονομεταβλητή Ανάλυση — καθώς και τις αλληλεπιδράσεις και τις σχέσεις τους — Πολυμεταβλητή Ανάλυση.
Και τα δύο καθήκοντα βασίζονται σε μεγάλο βαθμό διερεύνηση επαρκών στατιστικών και οπτικοποιήσεων, που πρέπει να είναι προσαρμοσμένο στον τύπο του χαρακτηριστικού στο χέρι (π.χ. αριθμητικό, κατηγορηματικό), και η συμπεριφορά ψάχνουμε να ανατέμνουμε (π.χ. αλληλεπιδράσεις, συσχετίσεις).
Ας ρίξουμε μια ματιά στις βέλτιστες πρακτικές για κάθε εργασία.
Μονομεταβλητή Ανάλυση
Η ανάλυση των επιμέρους χαρακτηριστικών κάθε χαρακτηριστικού είναι ζωτικής σημασίας, καθώς θα μας βοηθήσει να αποφασίσουμε για αυτά συνάφεια για την ανάλυση και την τύπος προετοιμασίας δεδομένων μπορεί να χρειαστεί να επιτύχουν τα βέλτιστα αποτελέσματα.
Για παράδειγμα, μπορεί να βρούμε τιμές που είναι εξαιρετικά εκτός εύρους και μπορεί να αναφέρονται ασυνέπειες or υπερβολικά υψηλά. Μπορεί να χρειαστεί τυποποιώ αριθμητικός ημερομηνία ή εκτελέστε ένα one-hot κωδικοποίηση των κατηγορικών χαρακτηριστικά, ανάλογα με τον αριθμό των υπαρχουσών κατηγοριών. Ή μπορεί να χρειαστεί να εκτελέσουμε πρόσθετη προετοιμασία δεδομένων για να χειριστούμε αριθμητικές λειτουργίες που είναι μετατοπισμένο ή λοξό, εάν ο αλγόριθμος μηχανικής μάθησης που σκοπεύουμε να χρησιμοποιήσουμε αναμένει μια συγκεκριμένη κατανομή (συνήθως Gaussian).
Ως εκ τούτου, οι βέλτιστες πρακτικές απαιτούν τη διεξοδική διερεύνηση μεμονωμένων ιδιοτήτων, όπως τα περιγραφικά στατιστικά στοιχεία και η διανομή δεδομένων.
Αυτά θα τονίσουν την ανάγκη για επακόλουθες εργασίες αφαίρεσης, τυποποίησης, κωδικοποίησης ετικετών, καταλογισμού δεδομένων, αύξησης δεδομένων και άλλων τύπων προεπεξεργασίας.
Ας ερευνήσουμε race
και capital.gain
με περισσότερες λεπτομέρειες. Τι μπορούμε να εντοπίσουμε αμέσως;
ydata-profiling: Reporting Report (race and capital.gain). Εικόνα από συγγραφέα.
Η αξιολόγηση του κεφαλαιακό κέρδος είναι απλό:
Δεδομένης της κατανομής δεδομένων, μπορεί να αναρωτηθούμε εάν το χαρακτηριστικό προσθέτει κάποια αξία στην ανάλυσή μας, καθώς το 91.7% των τιμών είναι "0".
Αναλύοντας αγώνας είναι λίγο πιο περίπλοκο:
Υπάρχει σαφής υποεκπροσώπηση φυλών εκτός από White
. Αυτό φέρνει στο μυαλό δύο βασικά ζητήματα:
- Το ένα είναι η γενική τάση των αλγορίθμων μηχανικής μάθησης να παραβλέπουν λιγότερο αντιπροσωπευόμενες έννοιες, γνωστό ως το πρόβλημα του μικρές αποσυνδέσεις, που οδηγεί σε μειωμένη μαθησιακή απόδοση.
- Το άλλο είναι κάπως παράγωγο αυτού του ζητήματος: καθώς έχουμε να κάνουμε με ένα ευαίσθητο χαρακτηριστικό, αυτή η «τάση παραβλέποντας» μπορεί να έχει συνέπειες που σχετίζονται άμεσα με προκατάληψη και δικαιοσύνη θέματα. Κάτι που σίγουρα δεν θέλουμε να μπει στα μοντέλα μας.
Λαμβάνοντας αυτό υπόψη, ίσως θα έπρεπε εξετάστε το ενδεχόμενο να πραγματοποιήσετε αύξηση δεδομένων εξαρτώνται από τις υποεκπροσωπούμενες κατηγορίες, καθώς και λαμβάνοντας υπόψη μετρήσεις με επίγνωση της δικαιοσύνης για την αξιολόγηση του μοντέλου, για να ελέγξετε για τυχόν αποκλίσεις στην απόδοση που σχετίζονται με race
αξιών.
Θα αναφερθούμε περαιτέρω σε άλλα χαρακτηριστικά δεδομένων που πρέπει να εξεταστούν όταν συζητάμε τις βέλτιστες πρακτικές ποιότητας δεδομένων (Βήμα 3). Αυτό το παράδειγμα δείχνει απλώς πόσες πληροφορίες μπορούμε να λάβουμε αξιολογώντας μόνο κάθε μεμονωμένο χαρακτηριστικό ιδιότητες.
Τέλος, σημειώστε πώς, όπως αναφέρθηκε προηγουμένως, διαφορετικοί τύποι χαρακτηριστικών απαιτούν διαφορετικά στατιστικά στοιχεία και στρατηγικές οπτικοποίησης:
- Αριθμητικά χαρακτηριστικά Συχνά περιλαμβάνουν πληροφορίες σχετικά με τη μέση τιμή, την τυπική απόκλιση, τη λοξότητα, την κύρτωση και άλλα ποσοστιαία στατιστικά στοιχεία και αναπαριστώνται καλύτερα χρησιμοποιώντας ιστογράμματα.
- Κατηγοριακά χαρακτηριστικά περιγράφονται συνήθως χρησιμοποιώντας τους πίνακες τρόπων λειτουργίας, διάμεσων και συχνοτήτων και αναπαρίστανται με τη χρήση διαγραμμάτων ράβδων για ανάλυση κατηγοριών.
ydata-profiling: Αναφορά προφίλ. Τα παρουσιαζόμενα στατιστικά στοιχεία και οι απεικονίσεις προσαρμόζονται σε κάθε τύπο λειτουργίας. Screencast από τον συγγραφέα.
Μια τέτοια λεπτομερής ανάλυση θα ήταν δυσκίνητη να πραγματοποιηθεί με τη γενική χειραγώγηση των πάντα, αλλά ευτυχώς ydata-profiling
έχει όλη αυτή τη λειτουργικότητα ενσωματωμένη στο ProfileReport
για τη διευκόλυνσή μας: δεν προστέθηκαν επιπλέον γραμμές κώδικα στο απόσπασμα!
Πολυμεταβλητή Ανάλυση
Για την Πολυμεταβλητή Ανάλυση, οι βέλτιστες πρακτικές επικεντρώνονται κυρίως σε δύο στρατηγικές: την ανάλυση των αλληλεπιδράσεις μεταξύ των χαρακτηριστικών και την ανάλυσή τους συσχετισμοί.
Αναλύοντας τις αλληλεπιδράσεις
Οι αλληλεπιδράσεις μας αφήνουν εξερευνήστε οπτικά πώς συμπεριφέρεται κάθε ζεύγος χαρακτηριστικών, δηλαδή πώς σχετίζονται οι τιμές ενός χαρακτηριστικού με τις τιμές του άλλου.
Για παράδειγμα, μπορεί να εκθέσουν θετικός or αρνητικός σχέσεις, ανάλογα με το αν η αύξηση των αξιών του ενός συνδέεται με αύξηση ή μείωση των τιμών του άλλου, αντίστοιχα.
ydata-profiling: Αναφορά προφίλ — Αλληλεπιδράσεις. Εικόνα από συγγραφέα.
Λαμβάνοντας την αλληλεπίδραση μεταξύ age
και hours.per.week
Για παράδειγμα, μπορούμε να δούμε ότι η μεγάλη πλειοψηφία του εργατικού δυναμικού εργάζεται κατά 40 ώρες. Ωστόσο, υπάρχουν μερικές «απασχολημένες μέλισσες» που εργάζονται πέρα από αυτό (μέχρι 60 ή και 65 ώρες) μεταξύ 30 και 45 ετών. Τα άτομα στα 20 τους είναι λιγότερο πιθανό να υπερφορτωθούν και μπορεί να έχουν πιο ελαφρύ πρόγραμμα εργασίας σε ορισμένες εβδομάδες.
Ανάλυση συσχετισμών
Ομοίως με τις αλληλεπιδράσεις, συσχετισμοί ας μας αναλύσει τη σχέση μεταξύ των χαρακτηριστικών. Οι συσχετισμοί, ωστόσο, το «βάζουν αξία», ώστε να είναι ευκολότερο για εμάς να προσδιορίσουμε τη «δύναμη» αυτής της σχέσης.
Αυτή η «δύναμη» είναι μετριέται με συντελεστές συσχέτισης και μπορεί να αναλυθεί είτε αριθμητικά (π.χ. επιθεώρηση α μήτρα συσχέτισης) ή με α heatmap, που χρησιμοποιεί χρώμα και σκίαση για να τονίσει οπτικά ενδιαφέροντα μοτίβα:
ydata-profiling: Reporting Report — Heatmap and Correlation Matrix. Screencast από τον συγγραφέα.
Όσον αφορά το σύνολο δεδομένων μας, παρατηρήστε πώς συσχετίζεται μεταξύ education
και education.num
ξεχωρίζει. Στην πραγματικότητα, έχουν τις ίδιες πληροφορίες, να education.num
είναι απλώς ένα binning του education
αξιών.
Ένα άλλο μοτίβο που τραβάει τα βλέμματα είναι η συσχέτιση μεταξύ sex
και relationship
αν και πάλι δεν είναι πολύ ενημερωτικό: κοιτάζοντας τις τιμές και των δύο χαρακτηριστικών, θα συνειδητοποιούσαμε ότι αυτά τα χαρακτηριστικά είναι πολύ πιθανό να σχετίζονται επειδή male
και female
θα αντιστοιχεί σε husband
και wife
, Αντίστοιχα.
Αυτός ο τύπος απολύσεων μπορεί να ελεγχθεί για να διαπιστωθεί εάν μπορούμε να αφαιρέσουμε ορισμένες από αυτές τις δυνατότητες από την ανάλυση (marital.status
σχετίζεται επίσης με relationship
και sex
; native.country
και race
για παράδειγμα, μεταξύ άλλων).
ydata-profiling: Αναφορά προφίλ — Συσχετίσεις. Εικόνα από συγγραφέα.
Ωστόσο, υπάρχουν και άλλοι συσχετισμοί που ξεχωρίζουν και θα μπορούσαν να είναι ενδιαφέροντες για τους σκοπούς της ανάλυσής μας.
Για παράδειγμα, η συσχέτιση μεταξύsex
και occupation
, ή sex
και hours.per.week
.
Τέλος, οι συσχετισμοί μεταξύ income
και τα υπόλοιπα χαρακτηριστικά είναι πραγματικά ενημερωτικά, ειδικά σε περίπτωση που προσπαθούμε να χαρτογραφήσουμε ένα πρόβλημα ταξινόμησης. Γνωρίζοντας ποια είναι τα πιο συσχετισμένα Τα χαρακτηριστικά της κατηγορίας-στόχου μας βοηθούν να αναγνωρίσουμε το πιο μεροληπτική χαρακτηριστικά και επίσης να βρούμε πιθανές διαρροές δεδομένων που μπορεί να επηρεάσουν το μοντέλο μας.
Από το heatmap φαίνεται ότι marital.status
or relationship
είναι από τους σημαντικότερους προγνωστικούς παράγοντες, ενώ fnlwgt
για παράδειγμα, δεν φαίνεται να έχει μεγάλο αντίκτυπο στο αποτέλεσμα.
Ομοίως με τους περιγραφείς δεδομένων και τις απεικονίσεις, οι αλληλεπιδράσεις και οι συσχετίσεις πρέπει επίσης να προσέχουν τους τύπους των χαρακτηριστικών που υπάρχουν.
Με άλλα λόγια, διαφορετικοί συνδυασμοί θα μετρηθούν με διαφορετικούς συντελεστές συσχέτισης. Από προεπιλογή, ydata-profiling
τρέχει συσχετίσεις σε auto
, το οποίο σημαίνει ότι:
- Αριθμητικό έναντι αριθμητικό οι συσχετίσεις μετρώνται χρησιμοποιώντας Ο βαθμός του Spearman συντελεστής συσχέτισης;
- Κατηγορικός εναντίον Κατηγορικού οι συσχετίσεις μετρώνται χρησιμοποιώντας Cramer's V;
- Αριθμητικός έναντι κατηγορίας Οι συσχετισμοί χρησιμοποιούν επίσης το Cramer's V, όπου το αριθμητικό χαρακτηριστικό πρώτα διακριτοποιείται.
Και αν θέλετε να ελέγξετε άλλους συντελεστές συσχέτισης (π.χ. Pearson's, Kendall's, Phi) μπορείτε εύκολα διαμορφώστε τις παραμέτρους της αναφοράς.
Καθώς πλοηγούμαστε προς το α δεδοµενοκεντρικό παράδειγµα ανάπτυξης τεχνητής νοημοσύνης, όντας στην κορυφή του πιθανούς παράγοντες που περιπλέκουν που προκύπτουν στα δεδομένα μας είναι ουσιαστικό.
Με τους «περιπλεγμένους παράγοντες», αναφερόμαστε σφάλματα που μπορεί να συμβεί κατά τη συλλογή δεδομένων της επεξεργασίας, ή εγγενή χαρακτηριστικά των δεδομένων που είναι απλώς μια αντανάκλαση του φύση των δεδομένων.
Αυτές περιλαμβάνουν Λείπει δεδομένα, ανισόρροπος δεδομένα, σταθερός αξίες, αντίγραφα, πολύ συσχετίζονται or περιττός χαρακτηριστικά, θορυβώδης δεδομένα, μεταξύ άλλων.
Ζητήματα ποιότητας δεδομένων: Σφάλματα και εγγενή χαρακτηριστικά δεδομένων. Εικόνα από συγγραφέα.
Η εύρεση αυτών των ζητημάτων ποιότητας δεδομένων στην αρχή ενός έργου (και η συνεχής παρακολούθησή τους κατά την ανάπτυξη) είναι κρίσιμης σημασίας.
Εάν δεν εντοπιστούν και δεν αντιμετωπιστούν πριν από το στάδιο κατασκευής του μοντέλου, μπορεί να θέσουν σε κίνδυνο ολόκληρο τον αγωγό ML και τις επακόλουθες αναλύσεις και συμπεράσματα που μπορεί να προκύψουν από αυτόν.
Χωρίς μια αυτοματοποιημένη διαδικασία, η ικανότητα εντοπισμού και αντιμετώπισης αυτών των ζητημάτων θα αφεθεί αποκλειστικά στην προσωπική εμπειρία και τεχνογνωσία του ατόμου που διεξάγει την ανάλυση EDA, κάτι που είναι προφανές ότι δεν είναι ιδανικό. Επιπλέον, τι βάρος πρέπει να έχει κανείς στους ώμους του, ειδικά αν λάβουμε υπόψη τα σύνολα δεδομένων υψηλών διαστάσεων. Εισερχόμενη ειδοποίηση εφιάλτη!
Αυτό είναι ένα από τα πιο εκτιμημένα χαρακτηριστικά του ydata-profiling
, τη αυτόματη δημιουργία ειδοποιήσεων ποιότητας δεδομένων:
ydata-profiling: Αναφορά προφίλ — Ειδοποιήσεις ποιότητας δεδομένων. Εικόνα από συγγραφέα.
Το προφίλ εξάγει τουλάχιστον 5 διαφορετικούς τύπους ζητημάτων ποιότητας δεδομένων, και συγκεκριμένα duplicates
, high correlation
, imbalance
, missing
, να zeros
.
Πράγματι, είχαμε ήδη εντοπίσει μερικά από αυτά πριν, καθώς περάσαμε από το βήμα 2: race
είναι ένα ιδιαίτερα ανισόρροπο χαρακτηριστικό και capital.gain
κατοικείται κυρίως από 0. Είδαμε επίσης τη στενή συσχέτιση μεταξύ education
και education.num
, να relationship
και sex
.
Ανάλυση μοτίβων δεδομένων που λείπουν
Μεταξύ του ολοκληρωμένου εύρους των ειδοποιήσεων που εξετάζονται, ydata-profiling
είναι ιδιαίτερα χρήσιμο σε αναλύοντας μοτίβα δεδομένων που λείπουν.
Δεδομένου ότι τα ελλείποντα δεδομένα είναι ένα πολύ κοινό πρόβλημα σε τομείς του πραγματικού κόσμου και μπορεί να θέσει σε κίνδυνο την εφαρμογή ορισμένων ταξινομητών εντελώς ή να μεροληπτήσει σοβαρά τις προβλέψεις τους, μια άλλη βέλτιστη πρακτική είναι η προσεκτική ανάλυση των δεδομένων που λείπουν ποσοστό και συμπεριφορά που ενδέχεται να εμφανίζουν τα χαρακτηριστικά μας:
ydata-profiling: Αναφορά προφίλ — Ανάλυση τιμών που λείπουν. Screencast από τον συγγραφέα.
Από την ενότητα ειδοποιήσεων δεδομένων, το γνωρίζαμε ήδη workclass
, occupation
, να native.country
είχε απουσίες παρατηρήσεων. Ο χάρτης θερμότητας μας λέει περαιτέρω ότι υπάρχει άμεση σχέση με το μοτίβο που λείπει in occupation
και workclass
: όταν λείπει μια τιμή σε ένα χαρακτηριστικό, θα λείπει και το άλλο.
Βασική πληροφόρηση: Το προφίλ δεδομένων υπερβαίνει το EDA!
Μέχρι στιγμής, συζητούσαμε τις εργασίες που συνθέτουν μια διεξοδική διαδικασία EDA και πώς την αξιολόγηση ζητημάτων και χαρακτηριστικών ποιότητας δεδομένων - μια διαδικασία που μπορούμε να αναφέρουμε ως Data Profiling — είναι σίγουρα μια βέλτιστη πρακτική.
Ωστόσο, είναι σημαντικό να το διευκρινίσουμε προφίλ δεδομένων υπερβαίνει την ΕΔΑ. Ενώ γενικά ορίζουμε το EDA ως το διερευνητικό, διαδραστικό βήμα πριν από την ανάπτυξη οποιουδήποτε τύπου αγωγού δεδομένων, η δημιουργία προφίλ δεδομένων είναι μια επαναληπτική διαδικασία που πρέπει να συμβαίνει σε κάθε βήμα προεπεξεργασίας δεδομένων και δημιουργίας μοντέλων.
Ένας αποτελεσματικός EDA θέτει τα θεμέλια ενός επιτυχημένου αγωγού μηχανικής μάθησης.
Είναι σαν να εκτελείτε μια διάγνωση στα δεδομένα σας, μαθαίνοντας όλα όσα χρειάζεται να ξέρετε για το τι συνεπάγεται — είναι ιδιότητες, σχέσεις, θέματα — για να μπορέσετε αργότερα να τους αντιμετωπίσετε με τον καλύτερο δυνατό τρόπο.
Είναι επίσης η αρχή της φάσης της έμπνευσής μας: από την EDA αρχίζουν να προκύπτουν ερωτήματα και υποθέσεις και σχεδιάζεται η ανάλυση για την επικύρωση ή την απόρριψή τους στην πορεία.
Σε όλο το άρθρο, έχουμε καλύψει τα 3 βασικά θεμελιώδη βήματα που θα σας καθοδηγήσουν σε μια αποτελεσματική EDA, και συζήτησαν τον αντίκτυπο της ύπαρξης ενός κορυφαίου εργαλείου — ydata-profiling
— να μας υποδείξουν προς τη σωστή κατεύθυνση, και εξοικονομήστε μας τεράστιο χρόνο και ψυχικό φορτίο.
Ελπίζω ότι αυτός ο οδηγός θα σας βοηθήσει να κατακτήσετε την τέχνη του "παίζοντας ντετέκτιβ δεδομένων" και όπως πάντα, τα σχόλια, οι ερωτήσεις και οι προτάσεις εκτιμώνται πολύ. Ενημερώστε με για ποια άλλα θέματα θα ήθελα να γράψω ή καλύτερα, ελάτε να με συναντήσετε στο Data-Centric AI Κοινότητα και ας συνεργαστούμε!
Μίριαμ Σάντος εστίαση στην εκπαίδευση των Κοινοτήτων Επιστήμης Δεδομένων και Μηχανικής Μάθησης σχετικά με τον τρόπο μετάβασης από ακατέργαστα, βρώμικα, «κακά» ή ατελή δεδομένα σε έξυπνα, έξυπνα, υψηλής ποιότητας δεδομένα, επιτρέποντας στους ταξινομητές μηχανικής μάθησης να εξάγουν ακριβή και αξιόπιστα συμπεράσματα σε διάφορους κλάδους (Fintech , Healthcare & Pharma, Telecomm και Retail).
Πρωτότυπο. Αναδημοσιεύτηκε με άδεια.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- EVM Finance. Ενιαία διεπαφή για αποκεντρωμένη χρηματοδότηση. Πρόσβαση εδώ.
- Quantum Media Group. Ενισχυμένο IR/PR. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Data Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://www.kdnuggets.com/2023/06/data-scientist-essential-guide-exploratory-data-analysis.html?utm_source=rss&utm_medium=rss&utm_campaign=a-data-scientists-essential-guide-to-exploratory-data-analysis
- :έχει
- :είναι
- :δεν
- :που
- $UP
- 1
- 30
- 40
- 60
- 65
- 91
- a
- ικανότητα
- Σχετικα
- πάνω από
- απών
- Λογαριασμός
- ακριβής
- Κατορθώνω
- απέναντι
- προστιθέμενη
- Πρόσθετος
- Επιπλέον πληροφορίες
- διεύθυνση
- Προσθέτει
- ρυθμίζεται
- Ενήλικος
- επηρεάζουν
- πάλι
- Ηλικίες
- AI
- ειδοποιήσεις
- αλγόριθμος
- αλγόριθμοι
- Όλα
- κατά μήκος
- ήδη
- Επίσης
- Αν και
- εντελώς
- πάντοτε
- am
- μεταξύ των
- μεταξύ των
- ποσό
- an
- ανάλυση
- αναλύσει
- αναλύθηκε
- αναλύοντας
- και
- κάθε
- Εφαρμογή
- ΕΙΝΑΙ
- Τέχνη
- άρθρο
- AS
- Αξιολόγηση
- εκτίμηση
- συσχετισμένη
- At
- παραβρίσκομαι
- συγγραφέας
- Αυτοματοποιημένη
- Αυτόματο
- διαθέσιμος
- μακριά
- Κακός
- μπαρ
- BE
- ήταν
- πριν
- Αρχή
- είναι
- Πιστεύω
- ΚΑΛΎΤΕΡΟΣ
- βέλτιστες πρακτικές
- Καλύτερα
- μεταξύ
- Πέρα
- προκατάληψη
- Bing
- και οι δύο
- Φέρνει
- Κτίριο
- χτισμένο
- βάρος
- αλλά
- by
- κλήση
- CAN
- κεφάλαιο
- προσεκτικά
- κουβαλάω
- περίπτωση
- κατηγορίες
- κατηγορία
- Απογραφή
- χαρακτηριστικά
- έλεγχος
- τετραγωνισμένος
- τάξη
- ταξινόμηση
- καθαρός
- κωδικός
- συλλογή
- χρώμα
- συνδυασμοί
- Ελάτε
- Κοινός
- Κοινοτήτων
- πλήρης
- συγκρότημα
- περιεκτικός
- περιλαμβάνει
- συμβιβασμός
- Πιθανά ερωτήματα
- Διεξαγωγή
- Διεξαγωγή
- Συνέπειες
- θεωρούνται
- θεωρώντας
- συνεχώς
- ευκολία
- Συσχέτιση
- συντελεστής συσχέτισης
- θα μπορούσε να
- κρίσιμης
- κρίσιμος
- ημερομηνία
- ανάλυση δεδομένων
- Προετοιμασία δεδομένων
- την ποιότητα των δεδομένων
- επιστημονικά δεδομένα
- σύνολα δεδομένων
- μοιρασιά
- αποφασίζει
- μείωση
- βαθύς
- Προεπιλογή
- οπωσδηποτε
- Εξάρτηση
- Σε συνάρτηση
- παραγωγό
- περιγράφεται
- λεπτομέρεια
- λεπτομερής
- Προσδιορίστε
- ανάπτυξη
- Ανάπτυξη
- απόκλιση
- διάγνωση
- διαφορετικές
- κατευθύνει
- κατεύθυνση
- κατευθείαν
- συζητήσουν
- συζήτηση
- συζητώντας
- Display
- διανομή
- do
- κάνει
- domains
- Μην
- σχεδιάζω
- Πτώση
- κατά την διάρκεια
- e
- κάθε
- ευκολότερη
- εύκολα
- εκπαίδευση
- Αποτελεσματικός
- αποτελεσματικός
- αποτελεσματικά
- είτε
- ενεργοποίηση
- εξ ολοκλήρου
- λάθη
- ειδικά
- ουσία
- ουσιώδης
- Αιθέρας (ΕΤΗ)
- Even
- τελικά
- Κάθε
- πάντα
- Εξετάζοντας
- παράδειγμα
- υφιστάμενα
- αναμένει
- εμπειρία
- εξειδίκευση
- Διερευνητική Ανάλυση Δεδομένων
- διερευνήσει
- επιπλέον
- εξαιρετικά
- μάτι
- γεγονός
- οικείος
- μακριά
- Χαρακτηριστικό
- Χαρακτηριστικά
- ανατροφοδότηση
- Εύρεση
- fintech
- Όνομα
- Συγκέντρωση
- Εξής
- Για
- Δύναμη
- μορφή
- Θεμέλιο
- Συχνότητα
- από
- λειτουργικότητα
- θεμελιώδης
- θεμελιωδώς
- περαιτέρω
- μελλοντικός
- Κέρδος
- General
- γενικά
- δημιουργεί
- γενεά
- παίρνω
- gif
- δεδομένου
- Go
- πηγαίνει
- μετάβαση
- εξαιρετική
- μαντέψατε
- καθοδηγήσει
- είχε
- χέρι
- λαβή
- τα χέρια
- Έχω
- που έχει
- υγειονομική περίθαλψη
- βαριά
- βοήθεια
- χρήσιμο
- βοηθά
- υψηλής ποιότητας
- Επισημάνετε
- υψηλά
- κρατήστε
- ελπίζω
- ΩΡΕΣ
- Πως
- Πώς να
- Ωστόσο
- HTTPS
- i
- ιδανικό
- προσδιορίζονται
- προσδιορίσει
- if
- εικόνα
- αμέσως
- Επίπτωση
- σημαντικό
- in
- περιλαμβάνονται
- Εισόδημα
- Εισερχόμενος
- Αυξάνουν
- ατομικές
- βιομηχανίες
- πληροφορίες
- πληροφοριακός
- διορατικότητα
- ιδέες
- Έμπνευση
- παράδειγμα
- Έξυπνος
- σκοπεύω
- αλληλεπίδραση
- αλληλεπιδράσεις
- διαδραστικό
- ενδιαφέρον
- σε
- εσωτερικός
- διερευνήσει
- έρευνα
- εμπλέκω
- ζήτημα
- θέματα
- IT
- ΤΟΥ
- Διακινδυνεύω
- Δουλειά
- jpg
- μόλις
- KDnuggets
- Της Κένταλ
- Ξέρω
- Γνωρίζοντας
- γνωστός
- κούρτωση
- επιγραφή
- αργότερα
- Λείπει
- Οδηγεί
- μάθηση
- ελάχιστα
- αριστερά
- μείον
- Άδεια
- φως
- Μου αρέσει
- Πιθανός
- γραμμή
- γραμμές
- λίγο
- ματιά
- κοιτάζοντας
- Χαμηλός
- μηχανή
- μάθηση μηχανής
- Κυρίως
- κυρίως
- Η πλειοψηφία
- κάνω
- Χειρισμός
- χάρτη
- κύριος
- Μήτρα
- Ενδέχεται..
- me
- εννοώ
- μέσα
- μετράται
- Γνωρίστε
- ψυχική
- που αναφέρθηκαν
- Metrics
- ενδέχεται να
- νου
- Λείπει
- ML
- Τρόπος
- μοντέλο
- μοντέλα
- παρακολούθηση
- περισσότερο
- πλέον
- μετακινήσετε
- πολύ
- Πλοηγηθείτε
- Ανάγκη
- Όχι.
- Κανονικά
- Ειδοποίηση..
- αριθμός
- αντικείμενο
- Εμφανή
- συμβούν
- of
- συχνά
- on
- ONE
- αποκλειστικά
- βέλτιστη
- or
- τάξη
- ΑΛΛΑ
- Άλλα
- δικός μας
- έξω
- Αποτέλεσμα
- παραγωγή
- φόρμες
- επισκόπηση
- ζεύγος
- Πάντα
- Ειδικότερα
- Το παρελθόν
- πρότυπο
- πρότυπα
- People
- ποσοστό
- εκτελέσει
- επίδοση
- εκτέλεση
- ίσως
- άδεια
- person
- προσωπικός
- Pharma
- φάση
- επιλέξτε
- αγωγού
- προγραμματίζονται
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- εύλογος
- Σημείο
- Pops
- κατοικημένη περιοχή
- δυνατός
- πρακτική
- πρακτικές
- Προβλέψεις
- κυρίως
- προετοιμασία
- παρουσιάζονται
- δώρα
- Προβολή
- προηγουμένως
- εκτύπωση
- Πριν
- Πρόβλημα
- διαδικασια μας
- μεταποίηση
- Προφίλ ⬇️
- προφίλ
- σχέδιο
- ιδιότητες
- δημόσιο
- σκοπός
- ποιότητα
- ερώτηση
- Ερωτήσεις
- Αγώνας
- σειρά
- Τιμή
- μάλλον
- Ακατέργαστος
- πραγματικό κόσμο
- συνειδητοποιήσουν
- αρχεία
- Μειωμένος
- αντανάκλαση
- σχετικά με
- σχετίζεται με
- σχέση
- Σχέσεις
- σχετικά
- αξιόπιστος
- βασίζονται
- υπόλοιπα
- αφαίρεση
- αφαιρέστε
- αναφέρουν
- Αποθήκη
- εκπροσωπώ
- εκπροσωπούνται
- απαιτούν
- απαιτείται
- εκείνοι
- αντίστοιχα
- Αποτελέσματα
- λιανική πώληση
- δεξιά
- Άρθρο
- τρέξιμο
- ίδιο
- πρόγραμμα
- Επιστήμη
- έκταση
- Τμήμα
- τμήματα
- δείτε
- φαίνομαι
- φαίνεται
- δει
- ευαίσθητος
- διάφοροι
- σοβαρά
- Κοινοποίηση
- Κατάστημα
- Κοντά
- θα πρέπει να
- δείχνουν
- σημαντικός
- Απλούς
- απλά
- ταυτοχρόνως
- ενιαίας
- έξυπνος
- So
- μερικοί
- κάτι
- κάπως
- Spot
- Στάδιο
- σταθεί
- πρότυπο
- στέκεται
- Εκκίνηση
- Ξεκινήστε
- στατιστική
- Βήμα
- Βήματα
- ειλικρινής
- στρατηγικές
- μεταγενέστερος
- επιτυχής
- τέτοιος
- Πάρτε
- στόχος
- Έργο
- εργασίες
- λέει
- από
- ότι
- Η
- οι πληροφορίες
- τους
- Τους
- Εκεί.
- επομένως
- Αυτοί
- αυτοί
- αυτό
- διεξοδικά
- σκέψη
- τρία
- Μέσω
- ώρα
- προς την
- εργαλείο
- κορυφή
- Θέματα
- προς
- παραδοσιακά
- καταπληκτικός
- όντως
- δύο
- τύπος
- τύποι
- υποεκπροσωπούνται
- κατανόηση
- μοναδικός
- άγνωστος
- μέχρι
- ανερχόμενος
- us
- χρήση
- χρησιμοποιεί
- χρησιμοποιώντας
- συνήθως
- ΕΠΙΚΥΡΩΝΩ
- αξία
- Αξίες
- διάφορα
- Εναντίον
- πολύ
- οραματισμός
- θέλω
- Τρόπος..
- we
- Εβδ.
- βάρος
- ΛΟΙΠΌΝ
- πήγε
- ήταν
- Τι
- πότε
- αν
- Ποιό
- ολόκληρο
- WHY
- Wikipedia
- θα
- με
- χωρίς
- λόγια
- Εργασία
- εργαζόμενος
- λειτουργεί
- θα
- γράφω
- ακόμη
- εσείς
- Σας
- zephyrnet
- ζουμ