Fontos statisztikai adatok, amelyeket a tudósoknak tudniuk kell

Forrás csomópont: 1876637

Fontos statisztikai adatok, amelyeket a tudósoknak tudniuk kell

Számos alapvető statisztikai koncepciót minden adattudósnak – a lelkestől a szakemberig – jól kell értékelnie. Itt Python kódrészleteket biztosítunk a jobb megértés érdekében, és olyan kulcsfontosságú eszközöket kínálunk, amelyek korai betekintést nyújtanak az adatokba.


By Leksmi S. Sunil, IIT Indore '23 | GHC '21 tudós.

A statisztikai elemzés lehetővé teszi számunkra, hogy értékes betekintést nyerjünk a rendelkezésre álló adatokból. A fontos statisztikai fogalmak és technikák alapos megértése elengedhetetlen az adatok különféle eszközökkel történő elemzéséhez.

Mielőtt belemennénk a részletekbe, vessünk egy pillantást a cikkben tárgyalt témákra:

  • Leíró kontra következtető statisztika
  • Adattípusok
  • Valószínűség és Bayes-tétel
  • A központi tendencia intézkedései
  • ferdeség
  • kurtosis
  • A diszperzió mértékei
  • Kovariancia
  • Összefüggés
  • Valószínűségi eloszlások
  • Hipotézis tesztelés
  • Regresszió

Leíró kontra következtető statisztika

A statisztika egésze az adatok gyűjtésével, rendszerezésével, elemzésével, értelmezésével és bemutatásával foglalkozik. A statisztikáknak két fő ága van:

  1. Leíró statisztika: Ez magában foglalja az adatok jellemzőinek leírását, az adatok rendszerezését és megjelenítését, akár vizuálisan diagramon/grafikonon keresztül, akár numerikus számításokkal, a központi tendencia, változékonyság és eloszlás mértékét használva. Figyelemre méltó, hogy a következtetéseket a már ismert adatok alapján vonják le.
  2. Következtetési statisztika: Ez magában foglalja a következtetések levonását és általánosításokat a nagyobb populációkról a belőlük vett minták felhasználásával. Ezért bonyolultabb számításokra van szükség. A végső eredményeket olyan technikák segítségével állítják elő, mint a hipotézisvizsgálat, a korreláció és a regresszióanalízis. A várható jövőbeli eredmények és a levont következtetések túlmutatnak a rendelkezésre álló adatok szintjén.

Adattípusok

Ahhoz, hogy a legmegfelelőbb statisztikai technikákat alkalmazva megfelelő feltáró adatelemzést (EDA) végezhessünk, meg kell értenünk, hogy milyen típusú adatokon dolgozunk.

  1. Kategorikus adatok

A kategorikus adatok olyan minőségi változókat jelentenek, mint az egyén neme, vércsoportja, anyanyelve stb. A kategorikus adatok számértékek formájában is lehetnek, matematikai jelentés nélkül. Például, ha a nem a változó, a nőt 1-gyel, a férfit pedig 0-val jelölhetjük.

  • Névleges adatok: Az értékek jelölik a változókat, és nincs meghatározott hierarchia a kategóriák között, azaz nincs sorrend vagy irány – például vallás, nem stb. A csak két kategóriájú névleges skálákat „dichotómnak” nevezzük.
  • Sorozati adatok: A kategóriák között sorrend vagy hierarchia létezik – például minőségi besorolások, iskolai végzettség, tanulói levelek osztályzatai stb.
  1. Numerikus adatok

A numerikus adatok mennyiségi változókat jelentenek, amelyek csak számokban vannak kifejezve. Például egy személy magassága, súlya stb.

  • Diszkrét adatok: Az értékek megszámlálhatók és egész számok (leggyakrabban egész számok). Például az autók száma egy parkolóban, országok száma stb.
  • Folyamatos adatok: A megfigyelések mérhetők, de nem számolhatók. Az adatok egy tartományon belül tetszőleges értéket feltételeznek – például súlyt, magasságot stb. A folytonos adatok tovább oszthatók intervallumadatokra (a rendezett értékek, amelyek között azonos különbségek vannak, de nincs valódi nulla) és arányadatokra (azonos különbségű rendezett értékek) közöttük és a valódi nulla létezik).

Valószínűség és Bayes-tétel

A valószínűség annak a valószínűsége, hogy egy esemény bekövetkezik.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Független események: Két esemény független, ha az egyik bekövetkezése nem befolyásolja a másik bekövetkezésének valószínűségét. P(A∩B) = P(A)P(B), ahol P(A) != 0 és P(B) != 0.
  • Kölcsönösen kizáró események: Két esemény kölcsönösen kizárja egymást, vagy ha nem fordulhat elő egyszerre. P(A∩B) = 0 és P(A∪B) = P(A)+P(B).
  • Feltételes valószínűség: Egy A esemény valószínűsége, tekintettel arra, hogy egy másik B esemény már megtörtént. Ezt a P(A|B) jelenti. P(A|B) = P(A∩B)/P(B), ha P(B)>0.
  • Bayes-tétel

A központi tendencia intézkedései

Importálja a statisztikai modult.

  • Jelenteni: Az adatkészlet átlagos értéke.

numpy.mean( ) is használható.

  • Középső: Az adatkészlet középső értéke.

numpy.median( ) is használható.

  • Mód: Az adatkészlet leggyakoribb értéke.

Mikor kell használni az átlagot, a mediánt és a módot?

Az átlag, a medián és a módusz kapcsolata: Mód = 3 Medián — 2 Átlag

ferdeség

A szimmetria mértéke, pontosabban a szimmetria hiánya (aszimmetria).

  • Normál/szimmetrikus eloszlás: módus = medián = átlag
  • Pozitívan (jobbra) ferde eloszlás: módus < medián < átlag
  • Negatívan (balra) ferde eloszlás: átlag < medián < módus

kurtosis

Annak mérőszáma, hogy az adatok egy normál eloszláshoz képest nehéz- vagy könnyűfarkúak-e, azaz egy eloszlás „farkúságát” vagy „csúcsosságát” méri.

  • Leptokurtic – pozitív kurtosis
  • Mezokurtikus – normál eloszlás
  • Platykurtic – negatív kurtosis

Ferdeség és görbület Python használatával.

A diszperzió mértékei

Az adatok egy központi érték körüli terjedését/szórását írja le.

Tartomány: Az adatkészlet legnagyobb és legkisebb értéke közötti különbség.

Kvartilis eltérés: Az adathalmaz kvartilisei négy egyenlő részre osztják az adatokat – az első kvartilis (Q1) a legkisebb szám és az adatok mediánja közötti középső szám. A második kvartilis (Q2) az adathalmaz mediánja. A harmadik kvartilis (Q3) a középső szám a medián és a legnagyobb szám között. A kvartilis eltérés az Q = ½ × (Q3 – Q1)

Interkvartilis tartomány: IQR = Q3 — Q1

Variancia: Az egyes adatpontok és az átlag közötti átlagos négyzetes különbség. Azt méri, hogy az adatkészlet mennyire oszlik el az átlaghoz képest.

Szórás: Variancia négyzetgyöke.

Variancia és szórás Python használatával.

Kovariancia

Ez egy valószínűségi változópár közötti kapcsolat, ahol az egyik változó változása egy másik változó változását okozza.

Negatív, nulla és pozitív kovariancia.

Kovariancia mátrix és hőtérképes ábrázolása Python segítségével.

Összefüggés

Megmutatja, hogy egy változópár kapcsolódik-e egymáshoz, és milyen erősen.


Korrelációs mátrix ugyanazokat az adatokat használja, mint a kovariancia.

Kovariancia vs. korreláció.

Valószínűségi eloszlások

A valószínűségi eloszlások két nagy típusa létezik – a diszkrét és a folyamatos valószínűségi eloszlás.

Diszkrét valószínűség-eloszlás:

  • Bernoulli-eloszlás

Egy valószínűségi változó egyetlen próbát vesz fel, amelynek csak két lehetséges kimenetele van: 1 (siker) p valószínűséggel és 0 (sikertelenség) 1-p valószínűséggel.

  • Binomiális eloszlás

Minden vizsgálat független. Egy tárgyalásnak csak két kimenetele lehetséges: vagy siker, vagy kudarc. Összesen n számú azonos kísérletet hajtanak végre. A siker és a kudarc valószínűsége minden próba esetében azonos. (A kísérletek azonosak.)

  • Poisson-eloszlás

Méri annak valószínűségét, hogy adott számú esemény megtörténik egy meghatározott időtartamon belül.

Folyamatos valószínűség-eloszlás:

  • Egyenletes eloszlás

Négyszögletes eloszlásnak is nevezik. Minden eredmény egyformán valószínű.


  • Normál/Gauss-eloszlás

Az eloszlás átlaga, mediánja és módja egybeesik. Az eloszlás görbéje harang alakú és szimmetrikus az egyenesre x = μ. A görbe alatti teljes terület 1. Az értékeknek pontosan a fele a középponttól balra, a másik fele pedig jobbra található.

A normál eloszlás nagymértékben különbözik a binomiális eloszlástól. Ha azonban a kísérletek száma megközelíti a végtelent, akkor az alakzatok meglehetősen hasonlóak lesznek.

  • Exponenciális eloszlás

Az események közötti idő valószínűségi eloszlása ​​egy Poisson-pontfolyamatban, azaz olyan folyamatban, amelyben az események folyamatosan és függetlenül, állandó átlagsebességgel történnek.

Hipotézis tesztelés

Először nézzük meg a különbséget a nullhipotézis és az alternatív hipotézis között.

Null hipotézist: A populációs paraméterre vonatkozó állítás, amelyet vagy igaznak vélnek, vagy érvelésre használják, kivéve, ha hipotézisvizsgálattal kimutatható, hogy helytelen.

Alternatív hipotézis: A sokaságra vonatkozó állítás, amely ellentmond a nullhipotézisnek, és mire jutunk, ha elutasítjuk a nullhipotézist.

I. típusú hiba: Valódi nullhipotézis elutasítása

II típusú hiba: Hamis nullhipotézis el nem utasítása

Szignifikancia szint (α): A nullhipotézis elutasításának valószínűsége, ha igaz.

p-érték: Annak a valószínűsége, hogy a tesztstatisztika legalább olyan szélsőséges, mint a megfigyelt, feltéve, hogy a nullhipotézis igaz.

  • Ha p-érték > α, nem utasítjuk el a nullhipotézist.
  • Míg p-érték ≤ α, a nullhipotézist elvetjük, és arra a következtetésre juthatunk, hogy szignifikáns eredményt kaptunk.

A statisztikai hipotézisvizsgálat során az eredménynek akkor van statisztikai jelentősége, ha a nullhipotézis mellett nagyon valószínűtlen, hogy bekövetkezett.

Kritikus érték: Egy pont a tesztstatisztika skáláján, amelyen túlmenően elvetjük a nullhipotézist. Ez egy teszt statisztikától függ, amely a teszt típusára jellemző, és a szignifikancia szinttől, α, amely meghatározza a teszt érzékenységét.

Lineáris regresszió

A lineáris regresszió általában az első ML algoritmus, amellyel találkozunk. Egyszerű, és megértése más fejlett ML-algoritmusok alapjait is lefekteti.

Egyszerű lineáris regresszió

Lineáris megközelítés egy függő változó és egy független változó közötti kapcsolat modellezésére.

Meg kell találnunk a paramétereket, hogy a modell a legjobban illeszkedjen az adatokhoz. A regressziós egyenes (azaz a legjobban illeszkedő vonal) az a vonal, amelyre a hiba vonatkozik az előrejelzett értékek és a megfigyelt értékek között minimális.

Regressziós egyenes.

Most pedig próbáljuk meg ezt megvalósítani.

Többszörös lineáris regresszió

Lineáris megközelítés egy függő változó és két vagy több független változó közötti kapcsolat modellezésére.

eredeti. Engedéllyel újra közzétéve.

Kapcsolódó:

Forrás: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Időbélyeg:

Még több KDnuggets