Tärkeät tilastotiedot Tiedemiesten on tiedettävä

Lähdesolmu: 1876637

Tärkeät tilastotiedot Tiedemiesten on tiedettävä

Jokaisen datatieteilijän – harrastajasta ammattilaiseen – on arvostettava useita tilastollisia peruskäsitteitä. Täällä tarjoamme Pythonin koodinpätkiä, jotka lisäävät ymmärrystä ja tuovat sinulle tärkeitä työkaluja, jotka tuovat varhaisen käsityksen tietoihisi.


By Lekshmi S. Sunil, IIT Indore '23 | GHC '21 Scholar.

Tilastollisen analyysin avulla voimme saada arvokkaita oivalluksia käsillä olevista tiedoista. Tärkeiden tilastollisten käsitteiden ja tekniikoiden hyvä ymmärtäminen on ehdottoman välttämätöntä tietojen analysoimiseksi eri työkaluilla.

Ennen kuin menemme yksityiskohtiin, katsotaan tässä artikkelissa käsiteltyjä aiheita:

  • Kuvaava vs. viitteellinen tilasto
  • Tietotyypit
  • Todennäköisyys & Bayesin lause
  • Keskitrendin toimenpiteet
  • skewness
  • huipukkuus
  • Dispersiotoimenpiteet
  • kovarianssi
  • Korrelaatio
  • Todennäköisyysjakaumat
  • Hypoteesin testaus
  • Regressio

Kuvaava vs. viitteellinen tilasto

Tilastot kokonaisuudessaan käsittelevät tiedon keräämistä, järjestämistä, analysointia, tulkintaa ja esittämistä. Tilastoissa on kaksi päähaaraa:

  1. Kuvailevia tilastoja: Tämä sisältää tietojen ominaisuuksien kuvaamisen, tietojen järjestämisen ja esittämisen joko visuaalisesti kaavioiden/kaavioiden kautta tai numeeristen laskelmien avulla käyttäen keskeisen taipumuksen, vaihtelevuuden ja jakauman mittareita. Yksi huomionarvoinen seikka on, että johtopäätökset tehdään jo tunnettujen tietojen perusteella.
  2. Alkuperäiset tilastot: Tämä edellyttää päätelmien tekemistä ja yleistyksiä suuremmista populaatioista niistä otettujen näytteiden avulla. Siksi tarvitaan monimutkaisempia laskelmia. Lopulliset tulokset tuotetaan käyttämällä tekniikoita, kuten hypoteesitestausta, korrelaatiota ja regressioanalyysiä. Ennustetut tulevat tulokset ja tehdyt johtopäätökset ylittävät saatavilla olevien tietojen tason.

Tietotyypit

Jotta voimme suorittaa asianmukaisen Exploratory Data Analysis (EDA) -analyysin (EDA) käyttämällä sopivimpia tilastotekniikoita, meidän on ymmärrettävä, minkä tyyppisten tietojen parissa työskentelemme.

  1. Kategoriset tiedot

Kategoriatiedot edustavat laadullisia muuttujia, kuten yksilön sukupuoli, veriryhmä, äidinkieli jne. Kategoriset tiedot voivat olla myös numeerisia arvoja ilman matemaattista merkitystä. Esimerkiksi, jos muuttuja on sukupuoli, nainen voidaan edustaa numerolla 1 ja mies 0:lla.

  • Nimellistiedot: Arvot merkitsevät muuttujat, eikä luokkien välillä ole määriteltyä hierarkiaa, eli ei ole järjestystä tai suuntaa – esimerkiksi uskonto, sukupuoli jne. Nimellisiä asteikkoja, joissa on vain kaksi luokkaa, kutsutaan "dikotomisiksi".
  • Järjestystiedot: Luokkien välillä on järjestys tai hierarkia - esimerkiksi laatuluokitukset, koulutustaso, oppilaiden kirjearvot jne.
  1. Numeeriset tiedot

Numeerinen data edustaa kvantitatiivisia muuttujia, jotka ilmaistaan ​​vain numeroina. Esimerkiksi henkilön pituus, paino jne.

  • Diskreetti data: Arvot ovat laskettavissa ja ovat kokonaislukuja (useimmiten kokonaislukuja). Esimerkiksi pysäköintialueella olevien autojen määrä, ei maita jne.
  • Jatkuva data: Havaintoja voidaan mitata, mutta niitä ei voida laskea. Data olettaa minkä tahansa arvon alueella – esimerkiksi painon, pituuden jne. Jatkuva data voidaan jakaa edelleen intervallitietoihin (järjestettyihin arvoihin, joilla on samat erot, mutta niillä ei ole todellista nollaa) ja suhdetietoihin (järjestettyihin arvoihin, joilla on samat erot) niiden ja todellisen nollan välillä on olemassa).

Todennäköisyys & Bayesin lause

Todennäköisyys on tapahtuman todennäköisyyden mitta.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Riippumattomat tapahtumat: Kaksi tapahtumaa ovat riippumattomia, jos yhden tapahtuma ei vaikuta toisen tapahtuman todennäköisyyteen. P (A∩B) = P (A) P (B) missä P (A)! = 0 ja P (B)! = 0.
  • Toisensa poissulkevat tapahtumat: Kaksi tapahtumaa ovat toisensa poissulkevia tai erillisiä, jos ne eivät voi tapahtua samanaikaisesti. P(A∩B) = 0 ja P(A∪B) = P(A)+P(B).
  • Ehdollinen todennäköisyys: Tapahtuman A todennäköisyys, koska toinen tapahtuma B on jo tapahtunut. Tätä edustaa P (A | B). P (A | B) = P (A∩B)/P (B), kun P (B)> 0.
  • Bayesin lause

Keskitrendin toimenpiteet

Tuo tilastomoduuli.

  • Mean: Tietojoukon keskiarvo.

numpy.mean () voidaan myös käyttää.

  • Mediaani: Tietojoukon keskiarvo.

numpy.median( ) voidaan myös käyttää.

  • tila: Tietojoukon yleisin arvo.

Milloin keskiarvoa, mediaania ja tilaa käytetään?

Keskiarvon, mediaanin ja tilan suhde: Tila = 3 Mediaani - 2 Keskiarvo

skewness

Symmetrian mitta tai tarkemmin sanottuna symmetrian puute (epäsymmetria).

  • Normaali/symmetrinen jakauma: tila = mediaani = keskiarvo
  • Positiivisesti (oikealle) vino jakauma: tila < mediaani < keskiarvo
  • Negatiivisesti (vasemmalle) vino jakautuminen: keskiarvo < mediaani < moodi

huipukkuus

Mitta siitä, onko data raskaan tai kevyen pyrstön suhteessa normaalijakaumaan, eli se mittaa jakauman "häntäisyyttä" tai "huippuisuutta".

  • Leptokurtic - positiivinen kurtosis
  • Mesokurtic - normaalijakauma
  • Platykurtic - negatiivinen kurtosis

Vino ja kurtoosi Pythonilla.

Dispersiotoimenpiteet

Kuvaa tiedon leviämistä/hajauttamista keskeisen arvon ympärille.

Range: Tietojoukon suurimman ja pienimmän arvon välinen ero.

Kvartiilipoikkeama: Tietojoukon kvartiilit jakavat tiedot neljään yhtä suureen osaan - ensimmäinen kvartiili (Q1) on keskimmäinen luku pienimmän luvun ja mediaanin välillä. Toinen kvartiili (Q2) on tietojoukon mediaani. Kolmas kvartiili (Q3) on keskiluku mediaanin ja suurimman luvun välillä. Kvartiilipoikkeama on Q = ½ × (Q3 - Q1)

Neljänneksenvälinen alue: IQR = Q3 - Q1

varianssi: Keskimääräinen neliöero kunkin datapisteen ja keskiarvon välillä. Mittaa, miten tietojoukko on hajautettu suhteessa keskiarvoon.

Vakiopoikkeama: Varianssin neliöjuuri.

Varianssi ja keskihajonta Pythonilla.

kovarianssi

Se on satunnaismuuttujaparin välinen suhde, jossa yhden muuttujan muutos aiheuttaa muutoksen toisessa muuttujassa.

Negatiivinen, nolla ja positiivinen kovarianssi.

Kovarianssimatriisi ja sen lämpökarttaesitys Pythonilla.

Korrelaatio

Se osoittaa, liittyykö muuttujapari toisiinsa ja kuinka vahvasti.


Korrelaatiomatriisi käyttäen samoja kovarianssiin käytettyjä tietoja.

Kovarianssi vs. korrelaatio.

Todennäköisyysjakaumat

Todennäköisyysjakaumia on kahta laajaa tyyppiä - diskreetti ja jatkuva todennäköisyysjakauma.

Diskreetti todennäköisyysjakauma:

  • Bernoulli-jakelu

Satunnaismuuttuja ottaa yhden kokeen vain kahdella mahdollisella tuloksella: 1 (onnistuminen) todennäköisyydellä p ja 0 (epäonnistuminen) todennäköisyydellä 1-p.

  • Binominen jakelu

Jokainen kokeilu on itsenäinen. Kokeessa on vain kaksi mahdollista lopputulosta - joko onnistuminen tai epäonnistuminen. Suoritetaan yhteensä n identtistä koetta. Onnistumisen ja epäonnistumisen todennäköisyys on sama kaikissa kokeissa. (Kokeet ovat identtisiä.)

  • Poisson-jakelu

Mittaa todennäköisyyttä, että tietty määrä tapahtumia tapahtuu tietyn ajanjakson aikana.

Jatkuva todennäköisyysjakauma:

  • Virka-asujen jakelu

Kutsutaan myös suorakaiteen jakautumiseksi. Kaikki tulokset ovat yhtä todennäköisiä.


  • Normaali / Gaussin jakauma

Jakauman keskiarvo, mediaani ja muoto ovat samat. Jakauman käyrä on kellomainen ja symmetrinen viivan suhteen x = μ. Käyrän alla oleva kokonaispinta -ala on 1. Täsmälleen puolet arvoista on keskikohdan vasemmalla puolella ja toinen puoli oikealla.

Normaalijakauma eroaa suuresti binomiaalijakaumasta. Kuitenkin, jos kokeiden määrä lähestyy ääretöntä, muodot ovat melko samanlaisia.

  • Eksponentiaalinen jakelu

Poisson-pisteprosessin tapahtumien välisen ajan todennäköisyysjakauma, eli prosessi, jossa tapahtumat tapahtuvat jatkuvasti ja itsenäisesti vakionopeudella.

Hypoteesin testaus

Tarkastellaan ensin eroa nollahypoteesin ja vaihtoehtoisen hypoteesin välillä.

Nollahypoteesi: Väite väestöparametrista, jonka uskotaan pitävän paikkansa tai jota käytetään argumentin esittämiseen, ellei hypoteesitestillä voida osoittaa sitä virheelliseksi.

Vaihtoehtoinen hypoteesi: Väite populaatiosta, joka on ristiriidassa nollahypoteesin kanssa ja mitä teemme, jos hylkäämme nollahypoteesin.

Tyypin I virhe: Tosi nollahypoteesin hylkääminen

Tyypin II virhe: Väärän nollahypoteesin hylkäämättä jättäminen

Merkitystaso (α): Nollahypoteesin hylkäämisen todennäköisyys, kun se on totta.

p-arvo: Todennäköisyys, että testitilasto on vähintään yhtä äärimmäinen kuin havaittu, koska nollahypoteesi on totta.

  • Kun p-arvo > α, emme hylkää nollahypoteesia.
  • Vaikka p-arvo ≤ α, hylkäämme nollahypoteesin ja voimme päätellä, että meillä on merkittävä tulos.

Tilastollisen hypoteesin testauksessa tuloksella on tilastollista merkitystä, kun sen toteutuminen on hyvin epätodennäköistä nollahypoteesin perusteella.

Kriittinen arvo: Piste testitilaston asteikolla, jonka jälkeen hylkäämme nollahypoteesin. Se riippuu testitilastosta, joka on ominaista testityypille, ja merkitsevyystasosta α, joka määrittää testin herkkyyden.

Lineaarinen regressio

Lineaarinen regressio on yleensä ensimmäinen ML-algoritmi, jonka kohtaamme. Se on yksinkertainen, ja sen ymmärtäminen luo perustan muille edistyneille ML-algoritmeille.

Yksinkertainen lineaarinen regressio

Lineaarinen lähestymistapa riippuvan muuttujan ja yhden riippumattoman muuttujan välisen suhteen mallintamiseen.

Meidän on löydettävä parametrit, jotta malli sopii parhaiten tietoihin. Regressioviiva (eli parhaiten sopiva viiva) on viiva, jolla virhe on ennustettujen arvojen ja havaittujen arvojen välillä on minimi.

Regressiolinja.

Yritetään nyt toteuttaa tämä.

Moninkertainen lineaarinen regressio

Lineaarinen lähestymistapa riippuvan muuttujan ja kahden tai useamman riippumattoman muuttujan välisen suhteen mallintamiseen.

Alkuperäinen. Postitettu luvalla.

Related:

Lähde: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Aikaleima:

Lisää aiheesta KDnuggets