Σημαντικά στατιστικά δεδομένα Πρέπει να γνωρίζουν οι επιστήμονες

Κόμβος πηγής: 1876637

Σημαντικά στατιστικά δεδομένα Πρέπει να γνωρίζουν οι επιστήμονες

Πολλές βασικές στατιστικές έννοιες πρέπει να εκτιμηθούν καλά από κάθε επιστήμονα δεδομένων — από τον ενθουσιώδη μέχρι τον επαγγελματία. Εδώ, παρέχουμε αποσπάσματα κώδικα στην Python για να αυξήσουμε την κατανόηση και να σας προσφέρουμε βασικά εργαλεία που προσφέρουν έγκαιρη γνώση των δεδομένων σας.


By Lekshmi S. Sunil, IIT Indore '23 | Υπότροφος GHC '21.

Η στατιστική ανάλυση μας επιτρέπει να αντλήσουμε πολύτιμες γνώσεις από τα υπάρχοντα δεδομένα. Η σωστή κατανόηση των σημαντικών στατιστικών εννοιών και τεχνικών είναι απολύτως απαραίτητη για την ανάλυση των δεδομένων χρησιμοποιώντας διάφορα εργαλεία.

Πριν προχωρήσουμε στις λεπτομέρειες, ας ρίξουμε μια ματιά στα θέματα που καλύπτονται σε αυτό το άρθρο:

  • Περιγραφική έναντι συμπερασματικής στατιστικής
  • Τύποι δεδομένων
  • Πιθανότητα & Θεώρημα Bayes
  • Μέτρα Κεντρικής Τάσης
  • Σκέψου
  • Kurtosis
  • Μέτρα διασποράς
  • Συνδιακύμανση
  • Συσχέτιση
  • Κατανομές πιθανότητας
  • Δοκιμή υπόθεσης
  • Οπισθοδρόμηση

Περιγραφική έναντι συμπερασματικής στατιστικής

Η στατιστική στο σύνολό της ασχολείται με τη συλλογή, οργάνωση, ανάλυση, ερμηνεία και παρουσίαση δεδομένων. Στα στατιστικά στοιχεία, υπάρχουν δύο κύριοι κλάδοι:

  1. Περιγραφικά στατιστικά: Αυτό περιλαμβάνει την περιγραφή των χαρακτηριστικών των δεδομένων, την οργάνωση και παρουσίαση των δεδομένων είτε οπτικά μέσω διαγραμμάτων/γραφημάτων είτε μέσω αριθμητικών υπολογισμών χρησιμοποιώντας μέτρα κεντρικής τάσης, μεταβλητότητας και κατανομής. Ένα αξιοσημείωτο σημείο είναι ότι εξάγονται συμπεράσματα με βάση ήδη γνωστά δεδομένα.
  2. Επαγωγική στατιστική: Αυτό περιλαμβάνει την εξαγωγή συμπερασμάτων και τη γενίκευση για μεγαλύτερους πληθυσμούς χρησιμοποιώντας δείγματα που λαμβάνονται από αυτούς. Ως εκ τούτου, απαιτούνται πιο περίπλοκοι υπολογισμοί. Τα τελικά αποτελέσματα παράγονται χρησιμοποιώντας τεχνικές όπως ο έλεγχος υποθέσεων, η συσχέτιση και η ανάλυση παλινδρόμησης. Τα προβλεπόμενα μελλοντικά αποτελέσματα και τα συμπεράσματα που εξάγονται υπερβαίνουν το επίπεδο των διαθέσιμων δεδομένων.

Τύποι δεδομένων

Για να εκτελέσουμε τη σωστή Διερευνητική Ανάλυση Δεδομένων (EDA) εφαρμόζοντας τις καταλληλότερες στατιστικές τεχνικές, πρέπει να κατανοήσουμε τον τύπο δεδομένων που εργαζόμαστε.

  1. Κατηγορικά Στοιχεία

Τα κατηγορικά δεδομένα αντιπροσωπεύουν ποιοτικές μεταβλητές όπως το φύλο, η ομάδα αίματος, η μητρική γλώσσα ενός ατόμου κ.λπ. Τα κατηγορικά δεδομένα έχουν επίσης τη μορφή αριθμητικών τιμών χωρίς μαθηματική σημασία. Για παράδειγμα, εάν το φύλο είναι η μεταβλητή, ένα θηλυκό μπορεί να αντιπροσωπεύεται με 1 και το αρσενικό με 0.

  • Ονομαστικά δεδομένα: Οι τιμές επισημαίνουν τις μεταβλητές και δεν υπάρχει καθορισμένη ιεραρχία μεταξύ των κατηγοριών, δηλαδή, δεν υπάρχει σειρά ή κατεύθυνση — για παράδειγμα, θρησκεία, φύλο κ.λπ. Οι ονομαστικές κλίμακες με δύο μόνο κατηγορίες ονομάζονται «διχοτομικές».
  • Τακτικά στοιχεία: Υπάρχει σειρά ή ιεραρχία μεταξύ των κατηγοριών—για παράδειγμα, αξιολογήσεις ποιότητας, επίπεδο εκπαίδευσης, βαθμοί επιστολών μαθητών κ.λπ.
  1. Αριθμητικά Δεδομένα

Τα αριθμητικά δεδομένα αντιπροσωπεύουν ποσοτικές μεταβλητές που εκφράζονται μόνο σε αριθμούς. Για παράδειγμα, το ύψος, το βάρος ενός ατόμου κ.λπ.

  • Διακριτά δεδομένα: Οι τιμές είναι μετρήσιμες και είναι ακέραιοι (τις περισσότερες φορές ακέραιοι). Για παράδειγμα, ο αριθμός των αυτοκινήτων σε ένα χώρο στάθμευσης, ο αριθμός των χωρών κ.λπ.
  • Συνεχή δεδομένα: Οι παρατηρήσεις μπορούν να μετρηθούν αλλά δεν μπορούν να μετρηθούν. Τα δεδομένα λαμβάνουν οποιαδήποτε τιμή εντός ενός εύρους — για παράδειγμα, βάρος, ύψος κ.λπ. Τα συνεχή δεδομένα μπορούν περαιτέρω να χωριστούν σε δεδομένα διαστήματος (ταξινομημένες τιμές που έχουν τις ίδιες διαφορές μεταξύ τους αλλά δεν έχουν πραγματικό μηδέν) και δεδομένα αναλογίας (ταξινομημένες τιμές που έχουν τις ίδιες διαφορές μεταξύ τους και υπάρχει αληθινό μηδέν).

Πιθανότητα & Θεώρημα Bayes

Η πιθανότητα είναι το μέτρο της πιθανότητας να συμβεί ένα γεγονός.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Ανεξάρτητα Γεγονότα: Δύο γεγονότα είναι ανεξάρτητα εάν η εμφάνιση του ενός δεν επηρεάζει την πιθανότητα εμφάνισης του άλλου. P(A∩B) = P(A)P(B) όπου P(A) != 0 και P(B) != 0.
  • Αμοιβαία Αποκλειστικά Γεγονότα: Δύο συμβάντα είναι αμοιβαία αποκλειόμενα ή ασύνδετα εάν δεν μπορούν να συμβούν και τα δύο ταυτόχρονα. P(A∩B) = 0 και P(A∪B) = P(A)+P(B).
  • Πιθανότητα υπό όρους: Πιθανότητα ενός συμβάντος Α, δεδομένου ότι έχει ήδη συμβεί ένα άλλο γεγονός Β. Αυτό αντιπροσωπεύεται από το P(A|B). P(A|B) = P(A∩B)/P(B), όταν P(B)>0.
  • Το θεώρημα του Bayes

Μέτρα Κεντρικής Τάσης

Εισαγάγετε τη μονάδα στατιστικών στοιχείων.

  • Μέσο: Μέση τιμή του συνόλου δεδομένων.

Μπορεί επίσης να χρησιμοποιηθεί numpy.mean( ).

  • Διάμεσος: Μέση τιμή του συνόλου δεδομένων.

Μπορεί επίσης να χρησιμοποιηθεί numpy.median( ).

  • Τρόπος: Η πιο συχνή τιμή στο σύνολο δεδομένων.

Πότε να χρησιμοποιήσετε τη μέση, τη διάμεσο και τη λειτουργία;

Σχέση μεταξύ μέσου όρου, διάμεσου και τρόπου λειτουργίας: Λειτουργία = 3 Μέσος — 2 Μέσος

Σκέψου

Μέτρο συμμετρίας, ή ακριβέστερα, έλλειψη συμμετρίας (ασυμμετρία).

  • Κανονική/συμμετρική κατανομή: τρόπος = διάμεσος = μέσος όρος
  • Θετικά (δεξιά) λοξή κατανομή: τρόπος < διάμεσος < μέσος
  • Αρνητικά (αριστερά) λοξή κατανομή: μέση < διάμεσος < τρόπος

Kurtosis

Ένα μέτρο για το εάν τα δεδομένα είναι βαριάς ή ελαφριάς ουράς σε σχέση με μια κανονική κατανομή, δηλ. μετρά την "ουρά" ή "αιχμή" μιας κατανομής.

  • Leptokurtic – θετική κύρτωση
  • Mesokurtic – κανονική κατανομή
  • Platykurtic – αρνητική κύρτωση

Λοξότητα και κύρτωση με χρήση Python.

Μέτρα διασποράς

Περιγράφει την εξάπλωση/σκέδαση δεδομένων γύρω από μια κεντρική τιμή.

Περιοχή: Η διαφορά μεταξύ της μεγαλύτερης και της μικρότερης τιμής στο σύνολο δεδομένων.

Τετραμετρική απόκλιση: Τα τεταρτημόρια ενός συνόλου δεδομένων διαιρούν τα δεδομένα σε τέσσερα ίσα μέρη—το πρώτο τεταρτημόριο (Q1) είναι ο μεσαίος αριθμός μεταξύ του μικρότερου αριθμού και της διάμεσης τιμής των δεδομένων. Το δεύτερο τεταρτημόριο (Q2) είναι η διάμεσος του συνόλου δεδομένων. Το τρίτο τεταρτημόριο (Q3) είναι ο μεσαίος αριθμός μεταξύ του διάμεσου και του μεγαλύτερου αριθμού. Η απόκλιση τεταρτημόριου είναι Q = ½ × (Q3 — Q1)

Διατεταρτημόριο Εύρος: IQR = Q3 — Q1

Διαφορά: Η μέση τετραγωνική διαφορά μεταξύ κάθε σημείου δεδομένων και του μέσου όρου. Μετρά την κατανομή του συνόλου δεδομένων σε σχέση με τον μέσο όρο.

Τυπική απόκλιση: Τετραγωνική ρίζα διακύμανσης.

Διακύμανση και τυπική απόκλιση με χρήση Python.

Συνδιακύμανση

Είναι η σχέση μεταξύ ενός ζεύγους τυχαίων μεταβλητών όπου μια αλλαγή σε μια μεταβλητή προκαλεί αλλαγή σε μια άλλη μεταβλητή.

Αρνητική, μηδενική και θετική συνδιακύμανση.

Ο πίνακας συνδιακύμανσης και η αναπαράστασή του στον χάρτη θερμότητας με χρήση Python.

Συσχέτιση

Δείχνει εάν και πόσο ισχυρά ένα ζεύγος μεταβλητών σχετίζεται μεταξύ τους.


Πίνακας συσχέτισης χρησιμοποιώντας τα ίδια δεδομένα που χρησιμοποιήθηκαν για τη συνδιακύμανση.

Συνδιακύμανση έναντι συσχέτισης.

Κατανομές πιθανότητας

Υπάρχουν δύο μεγάλοι τύποι κατανομών πιθανοτήτων — Διακριτές και Συνεχείς κατανομές πιθανοτήτων.

Διακριτή Κατανομή Πιθανοτήτων:

  • Διανομή Bernoulli

Μια τυχαία μεταβλητή λαμβάνει μία μόνο δοκιμή με μόνο δύο πιθανά αποτελέσματα: 1 (επιτυχία) με πιθανότητα p και 0 (αποτυχία) με πιθανότητα 1-p.

  • Διωνυμική κατανομή

Κάθε δοκιμή είναι ανεξάρτητη. Υπάρχουν μόνο δύο πιθανά αποτελέσματα σε μια δοκιμή - είτε μια επιτυχία είτε μια αποτυχία. Διενεργείται συνολικός αριθμός n πανομοιότυπων δοκιμών. Η πιθανότητα επιτυχίας και αποτυχίας είναι η ίδια για όλες τις δοκιμές. (Οι δοκιμές είναι πανομοιότυπες.)

  • Διανομή Poisson

Μετρά την πιθανότητα να συμβεί ένας δεδομένος αριθμός γεγονότων σε μια καθορισμένη χρονική περίοδο.

Συνεχής Κατανομή Πιθανοτήτων:

  • Ομοιόμορφη κατανομή

Ονομάζεται επίσης ορθογώνια κατανομή. Όλα τα αποτελέσματα είναι εξίσου πιθανά.


  • Κανονική/Γκαουσιανή Κατανομή

Ο μέσος όρος, η διάμεσος και ο τρόπος κατανομής συμπίπτουν. Η καμπύλη της κατανομής έχει σχήμα καμπάνας και συμμετρική ως προς τη γραμμή x = μ. Το συνολικό εμβαδόν κάτω από την καμπύλη είναι 1. Ακριβώς οι μισές τιμές βρίσκονται στα αριστερά του κέντρου και οι άλλες μισές στα δεξιά.

Μια κανονική κατανομή είναι πολύ διαφορετική από τη διωνυμική κατανομή. Ωστόσο, εάν ο αριθμός των δοκιμών πλησιάσει το άπειρο, τότε τα σχήματα θα είναι αρκετά παρόμοια.

  • Εκθετική Κατανομή

Κατανομή πιθανότητας του χρόνου μεταξύ γεγονότων σε μια διαδικασία σημείου Poisson, δηλαδή, μια διαδικασία στην οποία συμβαίνουν συνεχώς και ανεξάρτητα με σταθερό μέσο ρυθμό.

Δοκιμή υπόθεσης

Αρχικά, ας ρίξουμε μια ματιά στη διαφορά μεταξύ της μηδενικής υπόθεσης και της εναλλακτικής υπόθεσης.

Μηδενική υπόθεση: Δήλωση σχετικά με την παράμετρο πληθυσμού που είτε πιστεύεται ότι είναι αληθής είτε χρησιμοποιείται για να προβάλει ένα επιχείρημα, εκτός εάν μπορεί να αποδειχθεί ότι είναι λανθασμένη με τον έλεγχο υποθέσεων.

Εναλλακτική υπόθεση: Ισχυρισμός σχετικά με τον πληθυσμό που έρχεται σε αντίθεση με τη μηδενική υπόθεση και τι συμπέρασμα καταλήγουμε εάν απορρίψουμε τη μηδενική υπόθεση.

Σφάλμα τύπου I: Απόρριψη μιας αληθινής μηδενικής υπόθεσης

Σφάλμα τύπου II: Μη απόρριψη ψευδούς μηδενικής υπόθεσης

Επίπεδο σημαντικότητας (α): Πιθανότητα απόρριψης της μηδενικής υπόθεσης όταν είναι αληθινή.

p-value: Η πιθανότητα η στατιστική δοκιμή να είναι τουλάχιστον τόσο ακραία όσο αυτή που παρατηρήθηκε δεδομένου ότι η μηδενική υπόθεση είναι αληθής.

  • Όταν p-value > α, αποτυγχάνουμε να απορρίψουμε τη μηδενική υπόθεση.
  • Ενώ η τιμή p ≤ α, απορρίπτουμε τη μηδενική υπόθεση και μπορούμε να συμπεράνουμε ότι έχουμε ένα σημαντικό αποτέλεσμα.

Στον έλεγχο στατιστικών υποθέσεων, ένα αποτέλεσμα έχει στατιστική σημασία όταν είναι πολύ απίθανο να έχει προκύψει δεδομένης της μηδενικής υπόθεσης.

Κρίσιμη αξία: Ένα σημείο στην κλίμακα της στατιστικής δοκιμής πέρα ​​από το οποίο απορρίπτουμε τη μηδενική υπόθεση. Εξαρτάται από μια στατιστική δοκιμής, η οποία είναι συγκεκριμένη για τον τύπο της δοκιμής, και το επίπεδο σημαντικότητας, α, που καθορίζει την ευαισθησία της δοκιμής.

γραμμική Παλινδρόμηση

Η Γραμμική παλινδρόμηση είναι συνήθως ο πρώτος αλγόριθμος ML που συναντάμε. Είναι απλό και η κατανόησή του θέτει τα θεμέλια για άλλους προηγμένους αλγόριθμους ML.

Απλή Γραμμική Παλινδρόμηση

Γραμμική προσέγγιση για τη μοντελοποίηση της σχέσης μεταξύ μιας εξαρτημένης μεταβλητής και μιας ανεξάρτητης μεταβλητής.

Πρέπει να βρούμε τις παραμέτρους ώστε το μοντέλο να ταιριάζει καλύτερα στα δεδομένα. Η γραμμή παλινδρόμησης (δηλαδή, η καλύτερη προσαρμογή γραμμή) είναι η γραμμή για την οποία το σφάλμα μεταξύ των προβλεπόμενων τιμών και των παρατηρούμενων τιμών είναι το ελάχιστο.

Γραμμή παλινδρόμησης.

Τώρα, ας προσπαθήσουμε να το εφαρμόσουμε αυτό.

Πολλαπλή Γραμμική Παλινδρόμηση

Γραμμική προσέγγιση για τη μοντελοποίηση της σχέσης μεταξύ μιας εξαρτημένης μεταβλητής και δύο ή περισσότερων ανεξάρτητων μεταβλητών.

Πρωτότυπο. Αναδημοσιεύτηκε με άδεια.

Συγγενεύων:



Κορυφαίες ιστορίες τις τελευταίες 30 ημέρες
Δημοφιλέστερα
  1. Διαβάζετε αρχεία Excel με Python; Υπάρχει 1000 φορές πιο γρήγορος τρόπος
  2. Οι επιστήμονες δεδομένων χωρίς δεξιότητες μηχανικής δεδομένων θα αντιμετωπίσουν τη σκληρή αλήθεια
  3. Ένα χαρτοφυλάκιο επιστήμης δεδομένων που θα σας προσφέρει τη δουλειά
  4. Αυτοματοποιήστε το Microsoft Excel και το Word χρησιμοποιώντας Python
  5. Πώς να δημιουργήσετε εκπληκτικές εφαρμογές Ιστού για τα έργα επιστήμης δεδομένων σας
Οι περισσότεροι Shared
  1. Τρόπος αντιμετώπισης μη ισορροπημένης ταξινόμησης, χωρίς επαναπροσδιορισμό των δεδομένων
  2. Πώς να βρείτε αδυναμίες στα μοντέλα μηχανικής εκμάθησης
  3. Το ανοιχτό βιβλίο της Συλλογής μηχανών και βαθιάς εκμάθησης
  4. Οι επιστήμονες δεδομένων χωρίς δεξιότητες μηχανικής δεδομένων θα αντιμετωπίσουν τη σκληρή αλήθεια
  5. Εξηγείται ο έλεγχος υποθέσεων

Πηγή: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Σφραγίδα ώρας:

Περισσότερα από KDnuggets