The Importance Of Probability In Data Science

Republicat de Platon

Urmaritori: 0

Importanța probabilității în știința datelor
Imagine de autor

În calitate de Data Scientist, veți dori să cunoașteți acuratețea rezultatelor dvs. pentru a vă asigura validitatea. Fluxul de lucru al științei datelor este un proiect planificat, cu condiții controlate. Permițându-vă să evaluați fiecare etapă și modul în care aceasta a contribuit la rezultatul dvs.

Probabilitatea este măsura probabilității ca un eveniment/ceva să se întâmple. Este un element important în analiza predictivă, care vă permite să explorați matematica computațională din spatele rezultatului dvs.

Folosind un exemplu simplu, să ne uităm la aruncarea unei monede: fie capete (H) fie cozi (T). Probabilitatea ta va fi numărul de moduri în care poate avea loc un eveniment împărțit la numărul total de rezultate posibile.

Dacă vrem să aflăm probabilitatea capetelor, aceasta ar fi 1 (Cap) / 2 (Cap și Cozi) = 0.5.
Dacă vrem să aflăm probabilitatea cozilor, aceasta ar fi 1 (Cozi) / 2 (Cap și Cozi) = 0.5.

Dar nu vrem să confundăm probabilitatea și probabilitatea – există o diferență. Probabilitatea este măsura apariției unui anumit eveniment sau rezultat. Probabilitatea se aplică atunci când doriți să creșteți șansele ca un anumit eveniment sau rezultat să se producă.

Pentru a defalca – probabilitatea se referă la rezultate posibile, în timp ce probabilitatea se referă la ipoteze.

Un alt termen de cunoscut este „evenimente care se exclud reciproc”. Acestea sunt evenimente care nu au loc în același timp. De exemplu, nu puteți merge la dreapta și la stânga în același timp. Sau dacă aruncăm o monedă, putem obține fie cap sau cozi, nu ambele.

Tipuri de probabilitate

Probabilitatea teoretică: aceasta se concentrează pe cât de probabil este să se producă un eveniment și se bazează pe fundamentul raționamentului. Folosind teorie, rezultatul este valoarea așteptată. Folosind exemplul de cap și cozi, probabilitatea teoretică de aterizare pe cap este de 0.5 sau 50%.
Probabilitatea experimentală: aceasta se concentrează pe cât de frecvent are loc un eveniment în timpul unui experiment. Folosind exemplul cu cap și cozi – dacă ar fi aruncat o monedă de 10 ori și aceasta a aterizat de 6 ori, probabilitatea experimentală ca moneda să cadă pe capete ar fi de 6/10 sau 60%.

Probabilitatea condiționată este posibilitatea ca un eveniment/rezultat să se producă pe baza unui eveniment/rezultat existent. De exemplu, dacă lucrați pentru o companie de asigurări, este posibil să doriți să aflați probabilitatea ca o persoană să-și poată plăti asigurarea pe baza condiției că a contractat un împrumut pentru locuință.

Probabilitatea condiționată îi ajută pe Data Scientists să producă modele și rezultate mai precise, folosind alte variabile din setul de date.

O distribuție de probabilitate este o funcție statistică care ajută la descrierea valorilor și probabilităților posibile pentru o variabilă aleatorie într-un interval dat. Intervalul va avea valori minime și maxime posibile, iar locul în care acestea sunt reprezentate pe un grafic de distribuție depinde de teste statistice.

În funcție de tipul de date utilizate în proiect, vă puteți da seama ce tip de distribuție utilizați. Le voi împărți în două categorii: distribuție discretă și distribuție continuă.

Distribuție discretă

Distribuția discretă este atunci când datele pot lua doar anumite valori sau au un număr limitat de rezultate. De exemplu, dacă ar fi să aruncați un zar, valorile dumneavoastră limitate sunt 1, 2, 3, 4, 5 și 6.

Există diferite tipuri de distribuție discretă. De exemplu:

Distribuție uniformă discretă este atunci când toate rezultatele sunt la fel de probabile. Dacă folosim exemplul lansării unui zar cu șase fețe, există o probabilitate egală ca acesta să poată ateriza pe 1, 2, 3, 4, 5 sau 6 – ⅙. Cu toate acestea, problema cu distribuția uniformă discretă este că nu ne oferă informații relevante, pe care oamenii de știință le pot folosi și aplica.
Distribuția Bernoulli este un alt tip de distribuție discretă, în care experimentul are doar două rezultate posibile, fie da sau nu, 1 sau 2, adevărat sau fals. Acesta poate fi folosit atunci când aruncați o monedă, este fie cap, fie coadă. Când folosim distribuția Bernoulli, avem probabilitatea unuia dintre rezultate (p) și o putem deduce din probabilitatea totală (1), reprezentată ca (1-p).
Distribuție binomială este o secvență de evenimente Bernoulli și este distribuția de probabilitate discretă care poate produce doar două rezultate posibile într-un experiment, fie succes, fie eșec. Când aruncați o monedă, probabilitatea de a arunca o monedă va fi întotdeauna de 1.5 sau ½ în fiecare experiment efectuat.
Distribuție Poisson este distribuția de câte ori este probabil să se producă un eveniment pe o anumită perioadă sau distanță. În loc să se concentreze asupra unui eveniment care are loc, se concentrează pe frecvența unui eveniment care are loc într-un interval specific. De exemplu, dacă 12 mașini merg pe un anumit drum la 11 dimineața în fiecare zi, putem folosi distribuția Poisson pentru a ne da seama câte mașini merg pe acel drum la ora 11 dimineața într-o lună.

Distribuție continuă

Spre deosebire de distribuțiile discrete care au rezultate finite, distribuțiile continue au rezultate continue. Aceste distribuții apar de obicei ca o curbă sau o linie pe un grafic, deoarece datele sunt continue.

Distributie normala este unul despre care poate ați auzit, deoarece este cel mai des folosit. Este o distribuție simetrică a valorilor în jurul mediei, fără abateri. Datele urmează o formă de clopot atunci când sunt reprezentate, unde intervalul de mijloc este media. De exemplu, caracteristici precum înălțimea și scorurile IQ urmează o distribuție normală.
T-Distribuție este un tip de distribuție continuă utilizat atunci când abaterea standard a populației (σ) este necunoscută și dimensiunea eșantionului este mică (n<30). Urmează aceeași formă ca o distribuție normală, curba clopot. De exemplu, dacă ne uităm la câte batoane de ciocolată au fost vândute într-o zi, am folosi distribuția normală. Cu toate acestea, dacă vrem să analizăm câte au fost vândute într-o anumită oră, vom folosi distribuția t.
Distribuție exponențială este un tip de distribuție continuă a probabilității care se concentrează pe perioada de timp până la producerea unui eveniment. De exemplu, putem dori să ne uităm la cutremure și putem folosi distribuția exponențială. Cantitatea de timp, începând din acest punct până când are loc un cutremur. Distribuția exponențială este reprezentată ca o linie curbă și reprezintă probabilitățile exponențial.

Din cele de mai sus, puteți vedea cum oamenii de știință de date pot folosi probabilitatea pentru a înțelege mai multe despre date și pentru a răspunde la întrebări. Este foarte util pentru oamenii de știință să cunoască și să înțeleagă șansele ca un eveniment să se producă și poate fi foarte eficient în procesul de luare a deciziilor.

Veți lucra în mod constant cu date și trebuie să aflați mai multe despre acestea înainte de a efectua orice formă de analiză. Privirea distribuției datelor vă poate oferi o mulțime de informații și le puteți utiliza pentru a vă ajusta sarcina, procesul și modelul pentru a satisface distribuția datelor.

Acest lucru reduce timpul petrecut pentru înțelegerea datelor, oferă un flux de lucru mai eficient și produce rezultate mai precise.

Multe dintre conceptele științei datelor se bazează pe fundamentele probabilității.

Nisha Arya este un Data Scientist și un scriitor tehnic independent. Ea este interesată în special să ofere sfaturi în carieră în domeniul științei datelor sau tutoriale și cunoștințe bazate pe teorie în jurul științei datelor. Ea dorește, de asemenea, să exploreze diferitele moduri în care Inteligența Artificială este/poate aduce beneficii longevității vieții umane. O învățătoare pasionată, care încearcă să-și extindă cunoștințele tehnice și abilitățile de scriere, în timp ce îi ajută să-i ghideze pe alții.