Zmota osnovne stopnje in njen vpliv na podatkovno znanost

Zmota osnovne stopnje in njen vpliv na podatkovno znanost

Izvorno vozlišče: 2597848

Zmota osnovne stopnje in njen vpliv na podatkovno znanost
Slika avtorja
 

Pri delu s podatki in različnimi spremenljivkami je enostavno dodeliti eni spremenljivki ali vrednosti večjo od druge. Lahko domnevamo, da je imela določena spremenljivka ali podatkovna točka večji vpliv na rezultat, toda kako prepričani smo, da imajo druge spremenljivke enak vpliv?

V statistiki lahko osnovno stopnjo razumemo kot verjetnosti razredov, ki so brezpogojni glede na "značilne dokaze". Osnovno obrestno mero lahko vidite kot svojo predhodno verjetnostno predpostavko. 

Osnovne stopnje so pomembno orodje pri raziskavah. Na primer, če smo farmacevtsko podjetje in smo v procesu razvoja in pošiljanja novega cepiva, želimo preučiti uspeh zdravljenja. Če imamo 4000 ljudi, ki so pripravljeni na to cepljenje, in je naša osnovna stopnja 1/25. 

To pomeni, da bo od 160 ljudi z zdravljenjem uspešno ozdravljenih le 4000 ljudi. V farmacevtskem svetu je to zelo nizka stopnja uspešnosti. Tako je mogoče uporabiti osnovne stopnje za izboljšanje raziskav in natančnosti ter zagotoviti, da bo izdelek dobro deloval. 

Če besede razdelimo, bomo bolje razumeli. Zmota pomeni zmotno prepričanje ali napačno sklepanje. Če zdaj to združimo z našo zgornjo definicijo osnovne obrestne mere. 

Zmota osnovne obrestne mere, znana tudi kot pristranskost osnovne obrestne mere in zanemarjanje osnovne obrestne mere, je verjetnost presojanja specifične situacije, pri čemer se ne upoštevajo vsi ustrezni podatki. 

Zmota osnovne obrestne mere vsebuje informacije o osnovni obrestni meri in druge pomembne informacije. To je lahko posledica različnih razlogov, na primer nepravilnega temeljitega pregleda in analiziranja podatkov ali nevednosti dajanja prednosti določenemu delu podatkov. 

Zmota osnovne obrestne mere opisuje težnjo, da nekdo ne upošteva obstoječih informacij o osnovni obrestni meri, da si prizadeva za nove informacije in jim je naklonjen. To je v nasprotju s temeljnimi pravili sklepanja na podlagi dokazov.

Običajno boste slišali, da se to dogaja v finančni industriji. Na primer, vlagatelji bodo svojo taktiko nakupa ali delitve utemeljili na iracionalnih informacijah, kar vodi do nihanj na trgu – kljub temu, da imajo po njihovem znanju osnovno obrestno mero. 

Tako zdaj bolje razumemo osnovno obrestno mero in zmoto osnovne obrestne mere. Kakšen je njegov pomen in vpliv v podatkovni znanosti?

Govorili smo o 'verjetnostih razredov' in 'upoštevanju vseh relevantnih podatkov'. Če ste podatkovni znanstvenik ali inženir strojnega učenja, ali če imate svojo nogo – boste vedeli, kako pomembne so verjetnosti in ustrezni podatki za ustvarjanje natančnih rezultatov, proces učenja vašega modela strojnega učenja in izdelavo visoko zmogljivih modelov. 

Če želite analizirati in napovedovati podatke ali da bo vaš model strojnega učenja ustvaril natančne rezultate – morate upoštevati vsak košček podatkov. Ko pregledujete podatke, ko jih prvič vidite, se vam bodo nekateri deli morda zdeli pomembni, drugi pa nepomembni. Vendar je to vaša presoja in še ni dejansko, dokler ni opravljena ustrezna analiza. 

Kot je navedeno zgoraj, vam začetna osnovna stopnja pomaga zagotoviti natančnost in izdelati visoko zmogljive modele. Kako lahko torej to naredimo v Data Science?

Matrica zmede

Matrika zmede je meritev uspešnosti, ki zagotavlja povzetek rezultatov napovedi pri problemu klasifikacije. Vse matrike zmede temeljijo na rezultatu: True, False, Positive in Negative.

Matrika zmede predstavlja napovedi našega modela med fazo testiranja. Lažno negativni in lažno pozitivni v matriki zmede sta primera zmote osnovne stopnje.

  • True Positive (TP) – vaš model je predvidel pozitivno in je pozitivno 
  • True Negative (TN) – vaš model je napovedal negativno in je negativno
  • False Positive (FP) – vaš model je napovedal pozitivno in je negativno
  • False Negative (FN) – vaš model je napovedal negativno in je pozitiven 

Matrika zmede lahko izračuna 5 različnih metrik, ki nam pomagajo izmeriti veljavnost našega modela:

  1. Napačna klasifikacija = FP + FN / TP + TN + FP + FN
  2. Natančnost = TP / TP + FP
  3. Natančnost = TP + TN / TP + TN + FP + FN
  4. Specifičnost = TN / TN + FP
  5. Občutljivost ali priklic = TP / TP + FN

Da bi bolje razumeli matriko zmede, si je bolje ogledati vizualizacijo: 
 

Zmota osnovne stopnje in njen vpliv na podatkovno znanost
Slika avtorja

Ko prebirate ta članek, se verjetno lahko spomnite različnih vzrokov za napačno osnovno stopnjo, na primer neupoštevanje vseh ustreznih podatkov, človeška napaka ali pomanjkanje natančnosti. 

Čeprav so vse to resnične in prispevajo k vzroku zmote osnovne obrestne mere. Vsi se nanašajo na največjo težavo ignoriranja informacij o osnovni stopnji. Podatki o osnovni obrestni meri so pogosto prezrti, saj se štejejo za nepomembne, vendar lahko informacije o osnovni obrestni meri ljudem prihranijo veliko časa in denarja. Uporaba razpoložljivih informacij o osnovni stopnji vam omogoča, da ste bolj natančni pri določanju verjetnosti, ali se bo določen dogodek zgodil. 

Z uporabo informacij o osnovni obrestni meri se boste izognili zmoti pri osnovni obrestni meri. 

Če se boste zavedali zmot, kot so mnenja, samodejni procesi itd., se boste lahko spopadli z zmotami osnovne stopnje in zmanjšali morebitne napake. Ko merite verjetnost, da se bo zgodil določen dogodek, lahko pri tem pomagajo Bayesove metode, da se zmanjša napaka osnovne stopnje.  

Osnovna stopnja je pomembna v podatkovni znanosti, saj vas opremi z osnovnim razumevanjem, kako oceniti svojo študijo ali projekt in natančno prilagoditi svoj model – kar zagotavlja splošno povečanje natančnosti in učinkovitosti.

Če si želite ogledati videoposnetek o zmoti osnovne obrestne mere na medicinskem področju, si oglejte ta videoposnetek: Paradoks medicinskega testa
 
 
Nisha Arya je podatkovni znanstvenik, samostojni tehnični pisec in vodja skupnosti pri KDnuggets. Še posebej jo zanima zagotavljanje kariernih nasvetov ali vadnic o podatkovni znanosti in na teoriji temelječega znanja o podatkovni znanosti. Prav tako želi raziskati različne načine, na katere umetna inteligenca koristi/lahko prispeva k dolgoživosti človeškega življenja. Zavzeta učenka, ki želi razširiti svoje tehnično znanje in pisne sposobnosti, hkrati pa pomaga usmerjati druge.
 

Časovni žig:

Več od KDnuggets