Η πλάνη του βασικού ποσοστού και ο αντίκτυπός της στην επιστήμη των δεδομένων

Η πλάνη του βασικού ποσοστού και ο αντίκτυπός της στην επιστήμη των δεδομένων

Κόμβος πηγής: 2597848
Η πλάνη του βασικού ποσοστού και ο αντίκτυπός της στην επιστήμη των δεδομένων
Εικόνα από συγγραφέα
 

Όταν εργάζεστε με δεδομένα και διαφορετικές μεταβλητές, είναι εύκολο να εκχωρήσετε μια μεταβλητή ή τιμή μεγαλύτερη από την άλλη. Μπορούμε να υποθέσουμε ότι μια συγκεκριμένη μεταβλητή ή ένα σημείο δεδομένων είχε μεγαλύτερη επίδραση στην έξοδο, αλλά πόσο σίγουροι είμαστε ότι οι άλλες μεταβλητές έχουν ίση επίδραση;

Στα στατιστικά στοιχεία, το βασικό ποσοστό μπορεί να θεωρηθεί ως πιθανότητες κλάσεων που δεν εξαρτώνται από όρους σε «χαρακτηριστικά στοιχεία». Μπορείτε να δείτε το βασικό επιτόκιο ως την προηγούμενη υπόθεση πιθανότητας. 

Τα βασικά επιτόκια είναι σημαντικά εργαλεία στην έρευνα. Για παράδειγμα, εάν είμαστε μια φαρμακευτική εταιρεία και βρισκόμαστε στη διαδικασία ανάπτυξης και αποστολής νέου εμβολιασμού, θέλουμε να εξετάσουμε την επιτυχία της θεραπείας. Εάν έχουμε 4000 άτομα που είναι πρόθυμα να κάνουν αυτόν τον εμβολιασμό, και το βασικό μας ποσοστό είναι 1/25. 

Αυτό σημαίνει ότι μόνο 160 άτομα θα θεραπευθούν επιτυχώς από τη θεραπεία από 4000 άτομα. Στον φαρμακευτικό κόσμο, αυτό είναι ένα πολύ χαμηλό ποσοστό επιτυχίας. Αυτός είναι ο τρόπος με τον οποίο οι βασικές τιμές μπορούν να χρησιμοποιηθούν για τη βελτίωση της έρευνας και της ακρίβειας και τη διασφάλιση της καλής απόδοσης του προϊόντος. 

Αν χωρίσουμε τις λέξεις, θα μας δώσει καλύτερη κατανόηση. Πλάνη σημαίνει λανθασμένη πεποίθηση ή εσφαλμένη συλλογιστική. Αν τώρα το συνδυάσουμε με τον ορισμό μας για το βασικό επιτόκιο παραπάνω. 

Η πλάνη του βασικού επιτοκίου, επίσης γνωστή ως μεροληψία βασικού επιτοκίου και παραμέληση βασικού επιτοκίου, είναι η πιθανότητα να κριθεί μια συγκεκριμένη κατάσταση, χωρίς να λαμβάνονται υπόψη όλα τα σχετικά δεδομένα. 

Η πλάνη του βασικού επιτοκίου περιέχει πληροφορίες σχετικά με το βασικό επιτόκιο καθώς και άλλες σχετικές πληροφορίες. Αυτό μπορεί να οφείλεται σε διάφορους λόγους, όπως η ενδελεχής εξέταση και η σωστή ανάλυση των δεδομένων ή η άγνοια για την ευνοϊκή ευνοϊκότητα ενός συγκεκριμένου μέρους των δεδομένων. 

Η πλάνη του βασικού επιτοκίου περιγράφει την τάση για κάποιον να αγνοεί τις υπάρχουσες πληροφορίες βασικού επιτοκίου, να πιέζει και να είναι υπέρ των νέων πληροφοριών. Αυτό έρχεται σε αντίθεση με τους θεμελιώδεις κανόνες της συλλογιστικής που βασίζεται σε στοιχεία.

Θα ακούσετε συνήθως για αυτό που συμβαίνει στον χρηματοπιστωτικό κλάδο. Για παράδειγμα, οι επενδυτές θα βασίσουν τις τακτικές αγοράς ή ανταλλαγής τους σε παράλογες πληροφορίες, γεγονός που οδηγεί σε διακύμανση στην αγορά - παρά το γεγονός ότι έχει το βασικό επιτόκιο στη γνώση τους. 

Τώρα λοιπόν έχουμε καλύτερη κατανόηση του βασικού επιτοκίου και της πλάνης του βασικού επιτοκίου. Ποια είναι η συνάφεια και ο αντίκτυπός του στην Επιστήμη των Δεδομένων;

Μιλήσαμε για «πιθανότητες τάξεων» και «λαμβάνοντας υπόψη όλα τα σχετικά δεδομένα». Εάν είστε επιστήμονας δεδομένων ή μηχανικός μηχανικής μάθησης ή είστε έτοιμοι να περάσετε την πόρτα - θα γνωρίζετε πόσο σημαντικές είναι οι πιθανότητες και τα σχετικά δεδομένα για την παραγωγή ακριβών αποτελεσμάτων, τη διαδικασία εκμάθησης του μοντέλου μηχανικής εκμάθησης και την παραγωγή μοντέλων υψηλής απόδοσης. 

Για να αναλύσετε και να κάνετε προβλέψεις σχετικά με δεδομένα ή για το μοντέλο μηχανικής εκμάθησής σας να παράγει ακριβή αποτελέσματα - πρέπει να λάβετε υπόψη κάθε κομμάτι δεδομένων. Καθώς σαρώνετε τα δεδομένα σας την πρώτη φορά που τα βλέπετε, μπορεί να θεωρήσετε ορισμένα μέρη σχετικά και άλλα άσχετα. Ωστόσο, αυτή είναι η κρίση σας και δεν είναι ακόμη τεκμηριωμένη έως ότου πραγματοποιηθεί η κατάλληλη ανάλυση. 

Όπως αναφέρθηκε παραπάνω, ο αρχικός βασικός ρυθμός σάς βοηθά να διασφαλίσετε την ακρίβεια και να παράγετε μοντέλα υψηλής απόδοσης. Πώς μπορούμε λοιπόν να το κάνουμε αυτό στην Επιστήμη των Δεδομένων;

Πίνακας σύγχυσης

Ο πίνακας σύγχυσης είναι μια μέτρηση απόδοσης που παρέχει μια σύνοψη των αποτελεσμάτων πρόβλεψης σε ένα πρόβλημα ταξινόμησης. Οι πίνακες σύγχυσης βασίζονται όλοι στο αποτέλεσμα: Σωστό, Λάθος, Θετικό και Αρνητικό.

Ο πίνακας σύγχυσης αντιπροσωπεύει τις προβλέψεις του μοντέλου μας κατά τη φάση της δοκιμής. Το ψευδώς αρνητικό και το ψευδώς θετικό στον πίνακα σύγχυσης είναι παραδείγματα πλάνης βασικού ποσοστού.

  • Αληθινό θετικό (TP) - το μοντέλο σας προέβλεψε θετικό και είναι θετικό 
  • Αληθινό αρνητικό (TN) - το μοντέλο σας προέβλεψε αρνητικό και είναι αρνητικό
  • False Positive (FP) - το μοντέλο σας προέβλεψε θετικό και είναι αρνητικό
  • False Negative (FN) - το μοντέλο σας προέβλεψε αρνητικό και είναι θετικό 

Ένας πίνακας σύγχυσης μπορεί να υπολογίσει 5 διαφορετικές μετρήσεις για να μας βοηθήσει να μετρήσουμε την εγκυρότητα του μοντέλου μας:

  1. Λανθασμένη ταξινόμηση = FP + FN / TP + TN + FP + FN
  2. Ακρίβεια = TP / TP + FP
  3. Ακρίβεια = TP + TN / TP + TN + FP + FN
  4. Ειδικότητα = TN / TN + FP
  5. Ευαισθησία γνωστή και ως Ανάκληση = TP / TP + FN

Για να κατανοήσετε καλύτερα μια μήτρα σύγχυσης, είναι καλύτερο να εξετάσετε μια οπτικοποίηση: 
 

Η πλάνη του βασικού ποσοστού και ο αντίκτυπός της στην επιστήμη των δεδομένων
Εικόνα από συγγραφέα

Καθώς διαβάζετε αυτό το άρθρο, μπορείτε πιθανώς να σκεφτείτε διάφορες αιτίες πλάνης του βασικού ποσοστού, όπως η μη λήψη όλων των σχετικών δεδομένων υπόψη, το ανθρώπινο λάθος ή η έλλειψη ακρίβειας. 

Αν και όλα αυτά είναι αληθή και προσθέτουν στην αιτία της πλάνης του βασικού επιτοκίου. Όλα σχετίζονται με το μεγαλύτερο πρόβλημα της αγνόησης των πληροφοριών βασικής τιμής εξαρχής. Οι πληροφορίες βασικού επιτοκίου συχνά αγνοούνται καθώς θεωρούνται άσχετες, ωστόσο, οι πληροφορίες βασικού επιτοκίου μπορούν να εξοικονομήσουν πολύ χρόνο και χρήμα στους ανθρώπους. Η χρήση των διαθέσιμων πληροφοριών βασικού ρυθμού σάς επιτρέπει να είστε πιο ακριβείς στον καθορισμό των πιθανοτήτων σχετικά με το εάν θα συμβεί ένα δεδομένο γεγονός. 

Η χρήση των πληροφοριών βασικού επιτοκίου θα σας βοηθήσει να αποφύγετε την πλάνη του βασικού ποσοστού. 

Έχοντας επίγνωση σφαλμάτων, όπως απόψεις, αυτόματες διαδικασίες, κ.λπ. - θα σας επιτρέψει να καταπολεμήσετε το ζήτημα της πλάνης του βασικού ποσοστού και να μειώσετε τα πιθανά σφάλματα. Όταν μετράτε την πιθανότητα εμφάνισης ενός συγκεκριμένου γεγονότος, οι μέθοδοι Bayes μπορούν να βοηθήσουν σε αυτό για τη μείωση της πλάνης του βασικού ρυθμού.  

Ο βασικός ρυθμός είναι σημαντικός στην επιστήμη των δεδομένων, καθώς σας εξοπλίζει με μια βασική κατανόηση του τρόπου αξιολόγησης της μελέτης ή του έργου σας και της λεπτομέρειας του μοντέλου σας - παρέχοντας συνολική αύξηση στην ακρίβεια και την απόδοση.

Εάν θέλετε να παρακολουθήσετε ένα βίντεο σχετικά με την πλάνη του βασικού ποσοστού στον ιατρικό τομέα, ρίξτε μια ματιά σε αυτό το βίντεο: Παράδοξο ιατρικών εξετάσεων
 
 
Nisha Arya είναι Επιστήμονας Δεδομένων, Ανεξάρτητος Τεχνικός Συγγραφέας και Διευθυντής Κοινότητας στο KDnuggets. Ενδιαφέρεται ιδιαίτερα να παρέχει συμβουλές σταδιοδρομίας ή σεμινάρια της Επιστήμης Δεδομένων και γνώσεις βασισμένες στη θεωρία γύρω από την Επιστήμη των Δεδομένων. Επιθυμεί επίσης να διερευνήσει τους διαφορετικούς τρόπους με τους οποίους η Τεχνητή Νοημοσύνη μπορεί/μπορεί να ωφελήσει τη μακροζωία της ανθρώπινης ζωής. Μια δεινή μαθήτρια, που επιδιώκει να διευρύνει τις τεχνολογικές της γνώσεις και τις δεξιότητες γραφής, βοηθώντας παράλληλα να καθοδηγήσει άλλους.
 

Σφραγίδα ώρας:

Περισσότερα από KDnuggets