Belangrijke statistieken die wetenschappers moeten weten

Bronknooppunt: 1876637

Belangrijke statistieken die wetenschappers moeten weten

Verschillende fundamentele statistische concepten moeten door elke datawetenschapper goed worden gewaardeerd - van de liefhebber tot de professional. Hier bieden we codefragmenten in Python om het begrip te vergroten en u belangrijke hulpmiddelen te bieden die vroeg inzicht in uw gegevens bieden.


By Lekshmi S. Sunil, IIT Indore '23 | GHC '21 geleerde.

Statistische analyse stelt ons in staat om waardevolle inzichten uit de beschikbare gegevens te halen. Een goed begrip van de belangrijke statistische concepten en technieken is absoluut essentieel om de gegevens te analyseren met behulp van verschillende tools.

Laten we, voordat we ingaan op de details, eens kijken naar de onderwerpen die in dit artikel worden behandeld:

  • Beschrijvende versus inferentiële statistieken
  • Gegevenstypen
  • Waarschijnlijkheid en de stelling van Bayes
  • Maatregelen van centrale tendens
  • scheefheid
  • kurtosis
  • Maatregelen van dispersie
  • Covariantie
  • Correlatie
  • Kansverdelingen
  • Hypothese testen
  • Regressie

Beschrijvende versus inferentiële statistieken

Statistieken als geheel hebben betrekking op het verzamelen, ordenen, analyseren, interpreteren en presenteren van gegevens. Binnen statistieken zijn er twee hoofdtakken:

  1. Beschrijvende statistieken: Dit omvat het beschrijven van de kenmerken van de gegevens, het organiseren en presenteren van de gegevens, hetzij visueel door middel van grafieken/grafieken of door numerieke berekeningen met behulp van metingen van centrale tendens, variabiliteit en distributie. Een opmerkelijk punt is dat conclusies worden getrokken op basis van reeds bekende gegevens.
  2. Inferentiële statistieken: Dit omvat het trekken van gevolgtrekkingen en het maken van generalisaties over grotere populaties met behulp van steekproeven die daaruit zijn genomen. Er zijn dus complexere berekeningen nodig. De uiteindelijke resultaten worden geproduceerd met behulp van technieken zoals hypothesetesten, correlatie- en regressieanalyse. Voorspelde toekomstige resultaten en getrokken conclusies gaan verder dan het niveau van de beschikbare gegevens.

Gegevenstypen

Om de juiste Exploratory Data Analysis (EDA) uit te voeren door de meest geschikte statistische technieken toe te passen, moeten we begrijpen met welk type gegevens we werken.

  1. Categorische data

Categorische gegevens vertegenwoordigen kwalitatieve variabelen zoals iemands geslacht, bloedgroep, moedertaal enz. Categorische gegevens hebben ook de vorm van numerieke waarden zonder enige wiskundige betekenis. Als geslacht bijvoorbeeld de variabele is, kan een vrouw worden weergegeven door 1 en een man door 0.

  • Nominale gegevens: Waarden labelen de variabelen en er is geen gedefinieerde hiërarchie tussen de categorieën, dwz er is geen volgorde of richting, bijvoorbeeld religie, geslacht enz. Nominale schalen met slechts twee categorieën worden "dichotoom" genoemd.
  • Ordinale gegevens: Er bestaat een volgorde of hiërarchie tussen de categorieën, bijvoorbeeld kwaliteitsbeoordelingen, opleidingsniveau, cijfers van studentenbrieven, enz.
  1. Numerieke data

Numerieke gegevens vertegenwoordigen kwantitatieve variabelen die alleen in getallen worden uitgedrukt. Bijvoorbeeld de lengte, het gewicht van een persoon, enz.

  • Discrete gegevens: Waarden zijn aftelbaar en zijn gehele getallen (meestal gehele getallen). Bijvoorbeeld het aantal auto's op een parkeerplaats, het aantal landen etc.
  • Continue gegevens: Waarnemingen kunnen worden gemeten, maar niet worden geteld. Gegevens nemen elke waarde binnen een bereik aan, bijvoorbeeld gewicht, lengte enz. Continue gegevens kunnen verder worden onderverdeeld in intervalgegevens (geordende waarden hebben dezelfde verschillen maar hebben geen echte nul) en verhoudingsgegevens (geordende waarden hebben dezelfde verschillen tussen hen en waar nul bestaat).

Waarschijnlijkheid en de stelling van Bayes

Waarschijnlijkheid is de maatstaf voor de waarschijnlijkheid dat een gebeurtenis zal plaatsvinden.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Onafhankelijke gebeurtenissen: twee gebeurtenissen zijn onafhankelijk als het optreden van de ene geen invloed heeft op de waarschijnlijkheid van het optreden van de andere. P(A∩B) = P(A)P(B) waarbij P(A) != 0 en P(B) != 0.
  • Wederzijds exclusieve gebeurtenissen: twee gebeurtenissen sluiten elkaar uit of sluiten elkaar uit als ze niet beide tegelijkertijd kunnen plaatsvinden. P(A∩B) = 0 en P(A∪B) = P(A)+P(B).
  • Voorwaardelijke kans: Waarschijnlijkheid van een gebeurtenis A, gegeven dat er al een andere gebeurtenis B heeft plaatsgevonden. Dit wordt weergegeven door P(A|B). P(A|B) = P(A∩B)/P(B), wanneer P(B)>0.
  • Stelling van Bayes

Maatregelen van centrale tendens

Importeer de statistiekmodule.

  • Gemiddelde: Gemiddelde waarde van de dataset.

numpy.mean( ) kan ook worden gebruikt.

  • Mediaan: Middelste waarde van de dataset.

numpy.median( ) kan ook worden gebruikt.

  • Mode: Meest voorkomende waarde in de dataset.

Wanneer gebruik je gemiddelde, mediaan en modus?

Relatie tussen gemiddelde, mediaan en modus: Modus = 3 Mediaan — 2 Gemiddelde

scheefheid

Een maat voor symmetrie, of beter gezegd, gebrek aan symmetrie (asymmetrie).

  • Normale/symmetrische verdeling: modus = mediaan = gemiddelde
  • Positief (rechts) scheve verdeling: modus < mediaan < gemiddelde
  • Negatief (links) scheve verdeling: gemiddelde < mediaan < modus

kurtosis

Een maatstaf om te bepalen of de gegevens een zware of lichte staart hebben ten opzichte van een normale verdeling, dat wil zeggen dat ze de "staartigheid" of "piekheid" van een verdeling meten.

  • Leptokurtic - positieve kurtosis
  • Mesokurtic - normale verdeling
  • Platykurtic - negatieve kurtosis

Scheefheid en kurtosis met Python.

Maatregelen van dispersie

Beschrijft de spreiding/verstrooiing van gegevens rond een centrale waarde.

Bereik: Het verschil tussen de grootste en de kleinste waarde in de dataset.

Kwartielafwijking: De kwartielen van een gegevensset verdelen de gegevens in vier gelijke delen: het eerste kwartiel (Q1) is het middelste getal tussen het kleinste getal en de mediaan van de gegevens. Het tweede kwartiel (Q2) is de mediaan van de dataset. Het derde kwartiel (Q3) is het middelste getal tussen de mediaan en het grootste getal. Kwartielafwijking is Q = ½ × (Q3 — Q1)

Interkwartielbereik: IQR = Q3 — Q1

Variantie: Het gemiddelde gekwadrateerde verschil tussen elk gegevenspunt en het gemiddelde. Meet hoe verspreid de dataset is ten opzichte van het gemiddelde.

Standaardafwijking: Vierkantswortel van variantie.

Variantie en standaarddeviatie met behulp van Python.

Covariantie

Het is de relatie tussen een paar willekeurige variabelen waarbij een verandering in een variabele verandering in een andere variabele veroorzaakt.

Negatieve, nul en positieve covariantie.

Covariantiematrix en de representatie van de heatmap met Python.

Correlatie

Het laat zien of en hoe sterk een paar variabelen aan elkaar gerelateerd zijn.


Correlatiematrix die dezelfde gegevens gebruikt als voor covariantie.

Covariantie versus correlatie.

Kansverdelingen

Er zijn twee brede soorten kansverdelingen: discrete en continue kansverdelingen.

Discrete kansverdeling:

  • Bernoulli Distributie

Een willekeurige variabele neemt een enkele proef met slechts twee mogelijke uitkomsten: 1 (succes) met kans p en 0 (falen) met kans 1-p.

  • Binomiale distributie

Elke proef is onafhankelijk. Er zijn slechts twee mogelijke uitkomsten in een proef: een succes of een mislukking. Er worden in totaal n identieke proeven uitgevoerd. De kans op succes en mislukking is hetzelfde voor alle proeven. (Proeven zijn identiek.)

  • Poisson Distributie

Meet de waarschijnlijkheid van een bepaald aantal gebeurtenissen in een bepaalde tijdsperiode.

Continue kansverdeling:

  • Uniforme verdeling

Ook wel rechthoekige verdeling genoemd. Alle uitkomsten zijn even waarschijnlijk.


  • Normale / Gauss-verdeling

Het gemiddelde, de mediaan en de wijze van verdeling vallen samen. De curve van de verdeling is klokvormig en symmetrisch rond de lijn x =. De totale oppervlakte onder de curve is 1. Precies de helft van de waarden bevindt zich links van het midden en de andere helft rechts.

Een normale verdeling is heel anders dan een binomiale verdeling. Als het aantal proeven echter oneindig nadert, zullen de vormen behoorlijk op elkaar lijken.

  • Exponentiële verdeling

Kansverdeling van de tijd tussen gebeurtenissen in een Poisson-puntproces, dwz een proces waarin gebeurtenissen continu en onafhankelijk plaatsvinden met een constante gemiddelde snelheid.

Hypothese testen

Laten we eerst eens kijken naar het verschil tussen de nulhypothese en de alternatieve hypothese.

Nulhypothese: Verklaring over de populatieparameter waarvan wordt aangenomen dat deze waar is of die wordt gebruikt om een ​​argument naar voren te brengen, tenzij kan worden aangetoond dat deze onjuist is door middel van hypothesetoetsing.

Alternatieve hypothese: Bewering over de populatie die in tegenspraak is met de nulhypothese en wat we concluderen als we de nulhypothese verwerpen.

Type I-fout: Afwijzing van een echte nulhypothese

Type II-fout: Niet-verwerping van een valse nulhypothese

Significantieniveau (α): Waarschijnlijkheid van het verwerpen van de nulhypothese wanneer deze waar is.

p-waarde: De kans dat de teststatistiek minstens zo extreem is als de waargenomen statistiek, aangezien de nulhypothese waar is.

  • Wanneer p-waarde > , slagen we er niet in om de nulhypothese te verwerpen.
  • Terwijl de p-waarde ≤ α is, verwerpen we de nulhypothese en kunnen we concluderen dat we een significant resultaat hebben.

Bij het testen van statistische hypothesen heeft een resultaat statistische significantie wanneer het zeer onwaarschijnlijk is dat het is opgetreden gezien de nulhypothese.

Kritische waarde: Een punt op de schaal van de teststatistiek waarboven we de nulhypothese verwerpen. Het hangt af van een teststatistiek, die specifiek is voor het type test, en het significantieniveau, α, dat de gevoeligheid van de test definieert.

Lineaire regressie

Lineaire regressie is meestal het eerste ML-algoritme dat we tegenkomen. Het is eenvoudig en het begrijpen ervan legt de basis voor andere geavanceerde ML-algoritmen.

Eenvoudige lineaire regressie

Lineaire benadering voor het modelleren van de relatie tussen een afhankelijke variabele en een onafhankelijke variabele.

We moeten de parameters vinden zodat het model het beste bij de gegevens past. De regressielijn (dwz de best passende lijn) is de lijn waarvoor de fout tussen de voorspelde waarden en de waargenomen waarden is minimaal.

Regressie lijn.

Laten we dit nu proberen te implementeren.

Meerdere lineaire regressie

Lineaire benadering voor het modelleren van de relatie tussen een afhankelijke variabele en twee of meer onafhankelijke variabelen.

ORIGINELE. Met toestemming opnieuw gepost.

Zie ook:

Bron: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Tijdstempel:

Meer van KDnuggets