Approaches To Data Imputation - Plato AiStream V2.1

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Προσεγγίσεις στον Καταλογισμό Δεδομένων
Φωτογραφία Ρον Λατς

Τα σύνολα δεδομένων του πραγματικού κόσμου είναι σπάνια τέλεια και συχνά συνοδεύονται από τιμές που λείπουν ή ελλιπείς πληροφορίες. Αυτά τα σφάλματα μπορεί να οφείλονται στο ανθρώπινο στοιχείο (λανθασμένα συμπληρωμένες ή μη συμπληρωμένες έρευνες) ή στην τεχνολογία (δυσλειτουργία αισθητήρων). Όποια και αν είναι η περίπτωση, συχνά σας λείπουν αξίες ή πληροφορίες.

Αυτό βέβαια παρουσιάζει πρόβλημα. Χωρίς τις τιμές που λείπουν, ολόκληρο το σύνολο δεδομένων μπορεί να θεωρηθεί μη χρησιμοποιήσιμο. Επειδή όμως χρειάζεται πολύς χρόνος, προσπάθεια και (σε πολλές περιπτώσεις) χρήματα για να αποκτούν δεδομένα υψηλής ποιότητας, η απόρριψη των εσφαλμένων δεδομένων και η επανεκκίνηση ενδέχεται να μην είναι βιώσιμες επιλογές. Αντίθετα, πρέπει να βρούμε έναν τρόπο να επιλύσουμε ή να αντικαταστήσουμε αυτές τις τιμές που λείπουν. Εδώ μπαίνει ο καταλογισμός δεδομένων.

Αυτός ο οδηγός θα συζητήσει τι είναι ο καταλογισμός δεδομένων καθώς και τους τύπους προσεγγίσεων που υποστηρίζει.

Παρόλο που δεν μπορούμε να αντικαταστήσουμε δεδομένα που λείπουν ή είναι κατεστραμμένα, υπάρχουν μέθοδοι που μπορούμε να χρησιμοποιήσουμε για να επιτρέψουμε στο σύνολο δεδομένων να είναι ακόμα χρησιμοποιήσιμο. Ο καταλογισμός δεδομένων είναι μία από τις πιο αξιόπιστες τεχνικές για να επιτευχθεί αυτό. Ωστόσο, πρέπει πρώτα να προσδιορίσουμε ποιος τύπος δεδομένων λείπει και γιατί.

Στη στατιστική και την επιστήμη δεδομένων, υπάρχουν τρεις κύριοι τύποι δεδομένων που λείπουν:

Λείπει τυχαία (MAR), όπου τα δεδομένα που λείπουν συνδέονται με μια μεταβλητή και μπορούν τελικά να παρατηρηθούν ή να εντοπιστούν. Σε πολλές περιπτώσεις, αυτό μπορεί να σας παρέχει περισσότερες πληροφορίες σχετικά με τα δημογραφικά στοιχεία ή τα υποκείμενα των δεδομένων. Για παράδειγμα, άτομα μιας συγκεκριμένης ηλικίας μπορεί να αποφασίσουν να παραλείψουν μια ερώτηση σε μια έρευνα ή να αφαιρέσουν συστήματα παρακολούθησης από τις συσκευές τους σε συγκεκριμένες στιγμές.
Λείπει εντελώς τυχαία (MCAR), Όπου η δεδομένα που λείπουν δεν μπορεί να παρατηρηθεί ή να εντοπιστεί σε μια μεταβλητή. Είναι σχεδόν αδύνατο να διακρίνει κανείς γιατί λείπουν τα δεδομένα.
Λείπουν δεδομένα που δεν λείπουν τυχαία (NMAR), όπου τα δεδομένα που λείπουν συνδέονται με μια μεταβλητή ενδιαφέροντος. Στις περισσότερες περιπτώσεις, αυτά τα δεδομένα που λείπουν μπορούν να αγνοηθούν. Το NMAR μπορεί να προκύψει όταν ένας υπεύθυνος έρευνας παραλείπει μια ερώτηση που δεν ισχύει για αυτόν.

Αντιμετώπιση δεδομένων που λείπουν

Επί του παρόντος, έχετε τρεις κύριες επιλογές για να αντιμετωπίσετε τις τιμές δεδομένων που λείπουν:

διαγραφή
Απόδοση
Αμέλεια

Αντί να απορρίψετε ολόκληρο το σύνολο δεδομένων, μπορείτε να χρησιμοποιήσετε αυτό που είναι γνωστό ως διαγραφή κατά λίστα. Αυτό περιλαμβάνει τη διαγραφή εγγραφών με πληροφορίες ή τιμές που λείπουν. Το κύριο πλεονέκτημα της διαγραφής βάσει λίστας είναι ότι υποστηρίζει και τις τρεις κατηγορίες δεδομένων που λείπουν.

Ωστόσο, αυτό μπορεί να οδηγήσει σε επιπλέον απώλεια δεδομένων. Συνιστάται να χρησιμοποιείτε μόνο κατά λίστα διαγραφή σε περιπτώσεις όπου υπάρχει μεγαλύτερος αριθμός τιμών που λείπουν (παρατηρούμενες) από τις παρούσες (παρατηρούμενες), κυρίως επειδή δεν υπάρχουν αρκετά δεδομένα για να συναχθούν ή να αντικατασταθούν.

Εάν τα παρατηρούμενα δεδομένα που λείπουν δεν είναι σημαντικά (αγνοούνται) και λείπουν μόνο μερικές τιμές, μπορείτε να τις αγνοήσετε και να εργαστείτε με αυτό που έχετε. Ωστόσο, αυτό δεν είναι πάντα μια πιθανότητα. Ο καταλογισμός δεδομένων προσφέρει μια τρίτη και δυνητικά πιο βιώσιμη λύση.

Ο καταλογισμός δεδομένων περιλαμβάνει την αντικατάσταση τιμών που απουσιάζουν, έτσι ώστε τα σύνολα δεδομένων να μπορούν ακόμα να χρησιμοποιηθούν. Υπάρχουν δύο κατηγορίες προσεγγίσεων καταλογισμού δεδομένων:

μονόκλινο
Πολλαπλούς

Ο μέσος καταλογισμός (MI) είναι μια από τις πιο διάσημες μορφές καταλογισμού μεμονωμένων δεδομένων.

Μέσος καταλογισμός (MI)

Το MI είναι μια μορφή απλού καταλογισμού. Αυτό περιλαμβάνει τον υπολογισμό του μέσου όρου των παρατηρούμενων τιμών και τη χρήση των αποτελεσμάτων για να συμπεράνουμε τις τιμές που λείπουν. Δυστυχώς, αυτή η μέθοδος έχει αποδειχθεί αναποτελεσματική. Μπορεί να οδηγήσει σε πολλές μεροληπτικές εκτιμήσεις, ακόμη και όταν τα δεδομένα λείπουν εντελώς τυχαία. Επιπλέον, η «ακρίβεια» των εκτιμήσεων εξαρτάται από τον αριθμό των τιμών που λείπουν.

Για παράδειγμα, εάν υπάρχει μεγάλος αριθμός παρατηρούμενων τιμών που λείπουν, χρησιμοποιώντας μέσο καταλογισμό μπορεί να οδηγήσει σε υποτίμηση της αξίας. Έτσι, είναι πιο κατάλληλο για σύνολα δεδομένων και μεταβλητές με λίγες μόνο τιμές που λείπουν.

Χειροκίνητη αντικατάσταση

Σε αυτήν την περίπτωση, ένας χειριστής μπορεί να χρησιμοποιήσει προηγούμενη γνώση των τιμών του συνόλου δεδομένων για να αντικαταστήσει τις τιμές που λείπουν. Είναι μια ενιαία μέθοδος καταλογισμού που βασίζεται στη μνήμη ή στη γνώση του χειριστή και μερικές φορές αναφέρεται ως προηγούμενη γνώση ενός ιδανικού αριθμού. Η ακρίβεια εξαρτάται από την ικανότητα του χειριστή να ανακαλεί τις τιμές, επομένως αυτή η μέθοδος μπορεί να είναι πιο κατάλληλη για σύνολα δεδομένων με λίγες μόνο τιμές που λείπουν.

K-Κοντινότεροι Γείτονες (K-NN)

Ο Κ-πλησιέστερος γείτονας είναι μια τεχνική που χρησιμοποιείται ευρέως στη μηχανική μάθηση για την αντιμετώπιση προβλημάτων παλινδρόμησης και ταξινόμησης. Χρησιμοποιεί τον μέσο όρο της τιμής δεδομένων που λείπουν των γειτόνων που λείπουν για να την υπολογίσει και να την υπολογίσει. ο Μέθοδος K-NN είναι πολύ πιο αποτελεσματική από την απλή μέση τιμή και είναι ιδανική για τιμές MCAR και MAR.

υποκατάσταση

Η υποκατάσταση περιλαμβάνει την εύρεση ενός νέου ατόμου ή το αντικείμενο έρευνας ή δοκιμής. Αυτό θα πρέπει να είναι ένα θέμα που δεν επιλέχθηκε στο αρχικό δείγμα.

Καταλογισμός παλινδρόμησης

Η παλινδρόμηση επιχειρεί να προσδιορίσει την ισχύ μιας εξαρτημένης μεταβλητής (συνήθως καθορίζεται ως Y) σε μια συλλογή ανεξάρτητων μεταβλητών (συνήθως συμβολίζεται ως X). Η γραμμική παλινδρόμηση είναι η πιο γνωστή μορφή παλινδρόμησης. Χρησιμοποιεί τη γραμμή της καλύτερης προσαρμογής για να προβλέψει ή να καθορίσει την τιμή που λείπει. Κατά συνέπεια, είναι η καλύτερη μέθοδος για την οπτική αναπαράσταση δεδομένων μέσω ενός μοντέλου παλινδρόμησης.

Όταν η γραμμική παλινδρόμηση είναι μια μορφή ντετερμινιστικής παλινδρόμησης όπου καθορίζεται μια ακριβής σχέση μεταξύ των τιμών που λείπουν και των παρόντων τιμών, οι τιμές που λείπουν αντικαθίστανται με την πρόβλεψη 100% του μοντέλου παλινδρόμησης. Ωστόσο, υπάρχει ένας περιορισμός σε αυτή τη μέθοδο. Η ντετερμινιστική γραμμική παλινδρόμηση μπορεί συχνά να οδηγήσει σε υπερεκτίμηση της εγγύτητας της σχέσης μεταξύ των τιμών.

Στοχαστική γραμμικής παλινδρόμησης αντισταθμίζει την «υπερακρίβεια» της ντετερμινιστικής παλινδρόμησης εισάγοντας έναν (τυχαίο) όρο σφάλματος επειδή δύο καταστάσεις ή μεταβλητές σπάνια συνδέονται τέλεια. Αυτό καθιστά πιο κατάλληλη τη συμπλήρωση των τιμών που λείπουν χρησιμοποιώντας παλινδρόμηση.

Δειγματοληψία Hot Deck

Αυτή η προσέγγιση περιλαμβάνει την επιλογή μιας τυχαία επιλεγμένης τιμής από ένα θέμα με άλλες τιμές παρόμοιες με το θέμα που λείπει η τιμή. Απαιτεί από εσάς να αναζητήσετε θέματα ή άτομα και στη συνέχεια να συμπληρώσετε τα δεδομένα που λείπουν χρησιμοποιώντας τις τιμές τους.

Η μέθοδος δειγματοληψίας στο hot deck περιορίζει το εύρος των επιτεύξιμων τιμών. Για παράδειγμα, εάν το δείγμα σας περιορίζεται σε μια ηλικιακή ομάδα μεταξύ 20 και 25 ετών, το αποτέλεσμά σας θα είναι πάντα μεταξύ αυτών των αριθμών, αυξάνοντας την πιθανή ακρίβεια της τιμής αντικατάστασης. Τα υποκείμενα/άτομα για αυτήν τη μέθοδο καταλογισμού επιλέγονται τυχαία.

Δειγματοληψία Ψυχρού Καταστρώματος

Αυτή η μέθοδος περιλαμβάνει την αναζήτηση για ένα άτομο/θέμα που έχει παρόμοιες ή ίδιες τιμές για όλες τις άλλες μεταβλητές/παραμέτρους στο σύνολο δεδομένων. Για παράδειγμα, το θέμα μπορεί να έχει το ίδιο ύψος, πολιτιστικό υπόβαθρο και ηλικία με το θέμα του οποίου οι αξίες λείπουν. Διαφέρει από τη δειγματοληψία hot deck στο ότι τα θέματα επιλέγονται συστηματικά και επαναχρησιμοποιούνται.

Ενώ υπάρχουν πολλές επιλογές και τεχνικές για την αντιμετώπιση ελλιπών δεδομένων, η πρόληψη είναι πάντα καλύτερη από τη θεραπεία. Οι ερευνητές πρέπει να εφαρμόσουν αυστηρά προγραμματισμός για πειράματα και σπουδές. Η μελέτη πρέπει να έχει κατά νου μια σαφή δήλωση αποστολής ή στόχο.

Συχνά, οι ερευνητές περιπλέκουν υπερβολικά μια μελέτη ή αποτυγχάνουν να προγραμματίσουν τα εμπόδια, με αποτέλεσμα να λείπουν ή να υπάρχουν ανεπαρκή δεδομένα. Είναι πάντα καλύτερο να απλοποιείται ο σχεδιασμός της μελέτης, ενώ δίνεται ακριβής εστίαση στη συλλογή δεδομένων.

Συλλέξτε μόνο τα δεδομένα που χρειάζεστε για να επιτύχετε τους στόχους της μελέτης και τίποτα περισσότερο. Θα πρέπει επίσης να διασφαλίσετε ότι όλα τα όργανα και οι αισθητήρες που εμπλέκονται στη μελέτη ή τα πειράματα είναι πλήρως λειτουργικά ανά πάσα στιγμή. Εξετάστε το ενδεχόμενο να δημιουργήσετε τακτικά αντίγραφα ασφαλείας των δεδομένων/απαντήσεων σας καθώς προχωρά η μελέτη.

Η έλλειψη δεδομένων είναι σύνηθες φαινόμενο. Ακόμα κι αν εφαρμόσετε τις βέλτιστες πρακτικές, μπορεί να υποφέρετε από ελλιπή δεδομένα. Ευτυχώς, υπάρχουν τρόποι αντιμετώπισης αυτού του προβλήματος εκ των υστέρων.

Νάχλα Ντέιβις είναι προγραμματιστής λογισμικού και συγγραφέας τεχνολογίας. Προτού αφιερώσει τη δουλειά της με πλήρες ωράριο στην τεχνική συγγραφή, κατάφερε - μεταξύ άλλων συναρπαστικών πραγμάτων - να υπηρετήσει ως επικεφαλής προγραμματιστής σε έναν οργανισμό εμπειρικής επωνυμίας Inc. 5,000, του οποίου οι πελάτες περιλαμβάνουν τη Samsung, την Time Warner, το Netflix και τη Sony.