Grunnsatsfeilen og dens innvirkning på datavitenskap

Grunnsatsfeilen og dens innvirkning på datavitenskap

Kilde node: 2597848
Grunnsatsfeilen og dens innvirkning på datavitenskap
Bilde av forfatter
 

Når du arbeider med data og forskjellige variabler, er det enkelt å tilordne en variabel eller verdi til å være større enn den andre. Vi kan anta at en spesifikk variabel eller datapunkt hadde større innvirkning på produksjonen, men hvor sikre er vi på at de andre variablene har lik innvirkning?

I statistikk kan grunnrenten sees på som sannsynligheter for klasser som er ubetinget på «featural evidence». Du kan se grunnrenten som din tidligere sannsynlighetsantakelse. 

Grunnrenter er viktige verktøy i forskning. Hvis vi for eksempel er et farmasøytisk selskap og er i ferd med å utvikle og sende ut en ny vaksinasjon, ønsker vi å se på suksessen til behandlingen. Hvis vi har 4000 personer som er villige til å ta denne vaksinasjonen, og vår grunnsats er 1/25. 

Dette betyr at bare 160 mennesker vil lykkes med behandlingen av 4000 mennesker. I den farmasøytiske verden er dette en svært lav suksessrate. Dette er hvordan basisrater kan brukes til å forbedre forskning og nøyaktighet og sikre at produktet vil yte godt. 

Hvis vi deler ordene opp, vil det gi oss en bedre forståelse. Feilslutning betyr feil tro eller feilaktig resonnement. Hvis vi nå kombinerer det med vår definisjon av grunnrenten ovenfor. 

Grunnrentefeilen, også kjent som baserate bias og base rate neglect, er sannsynligheten for å bedømme en spesifikk situasjon, uten å ta hensyn til alle relevante data. 

Grunnrentefeilen har informasjon om grunnrenten så vel som annen relevant informasjon. Dette kan skyldes ulike årsaker som å ikke grundig undersøke og analysere dataene riktig, eller uvitenhet for å favorisere en bestemt del av dataene. 

Grunnrentefeilen beskriver tendensen til at noen ser bort fra den eksisterende informasjonen om grunnrente, til å presse og gå inn for den nye informasjonen. Dette strider mot de grunnleggende reglene for bevisbasert resonnement.

Du vil vanligvis høre om dette som skjer i finansbransjen. For eksempel vil investorer basere sin kjøps- eller deletaktikk på irrasjonell informasjon, noe som fører til svingninger i markedet – til tross for at de har basisrenten til deres kunnskap. 

Så nå har vi en bedre forståelse av grunnrenten og grunnrentefeilen. Hva er dens relevans og virkning i datavitenskap?

Vi har snakket om "sannsynligheter for klasser" og "å ta hensyn til alle relevante data". Hvis du er en dataforsker, eller maskinlæringsingeniør, eller får foten innenfor døren - vil du vite hvor viktig sannsynligheter og relevante data er for å produsere nøyaktige utdata, læringsprosessen til din maskinlæringsmodell og produsere høyytelsesmodeller. 

For å analysere og lage spådommer om data eller for at maskinlæringsmodellen din skal produsere nøyaktige utdata - må du ta hensyn til hver bit av data. Når du skanner gjennom dataene dine første gang du ser dem, kan det hende du anser noen deler som relevante og andre deler som irrelevante. Dette er imidlertid din vurdering og er ennå ikke saklig før riktig analyse har funnet sted. 

Som nevnt ovenfor hjelper den innledende basissatsen deg med å sikre nøyaktighet og produsere høyytelsesmodeller. Så hvordan kan vi gjøre dette i Data Science?

Forvirringsmatrise

En forvirringsmatrise er en ytelsesmåling som gir et sammendrag av prediksjonsresultater for et klassifiseringsproblem. Forvirringsmatrisene er alle basert på resultatet: Sant, Usant, Positivt og Negativt.

Forvirringsmatrisen representerer modellens spådommer under testfasen. De falsk-negative og falske positive i forvirringsmatrisen er eksempler på grunnratefeil.

  • Sann positiv (TP) - modellen din spådde positivt og den er positiv 
  • True Negative (TN) - modellen din predikerte negativ og den er negativ
  • Falsk positiv (FP) - modellen din spådde positiv og den er negativ
  • Falsk negativ (FN) - modellen din spådde negativ, og den er positiv 

En forvirringsmatrise kan beregne 5 forskjellige beregninger for å hjelpe oss med å måle gyldigheten til modellen vår:

  1. Feilklassifisering = FP + FN / TP + TN + FP + FN
  2. Presisjon = TP / TP + FP
  3. Nøyaktighet = TP + TN / TP + TN + FP + FN
  4. Spesifisitet = TN / TN + FP
  5. Sensitivitet aka Recall = TP / TP + FN

For bedre å forstå en forvirringsmatrise, er det bedre å se på en visualisering: 
 

Grunnsatsfeilen og dens innvirkning på datavitenskap
Bilde av forfatter

Mens du går gjennom denne artikkelen, kan du sannsynligvis tenke på en rekke årsaker til feil i grunnrenten, for eksempel å ikke ta alle relevante data i betraktning, menneskelige feil eller mangel på presisjon. 

Selv om disse alle er sanne og legger til årsaken til grunnrentefeilen. De forholder seg alle til det største problemet med å ignorere informasjonen om basisrenten i utgangspunktet. Grunnsatsinformasjon blir ofte ignorert ettersom den anses som irrelevant, men informasjonen om basispris kan spare folk for mye tid og penger. Ved å bruke den tilgjengelige basisrenteinformasjonen kan du være mer presis når det gjelder å lage sannsynligheter for om en gitt hendelse vil inntreffe. 

Ved å bruke informasjonen om grunnrenten vil du unngå feil i grunnrenten. 

Å være oppmerksom på feilslutninger som meninger, automatiske prosesser, etc - vil tillate deg å bekjempe spørsmålet om grunnrentefeil og redusere potensielle feil. Når du måler sannsynligheten for at en bestemt hendelse skal inntreffe, kan Bayesianske metoder hjelpe med dette for å redusere grunnratefeilen.  

Grunnsatsen er viktig i datavitenskap, da den gir deg en grunnleggende forståelse av hvordan du vurderer studiet eller prosjektet ditt, og finjusterer modellen din - og gir en generell økning i nøyaktighet og ytelse.

Hvis du ønsker å se en video om feiltakelse i grunnrenten innen det medisinske feltet, sjekk ut denne videoen: Medisinsk testparadoks
 
 
Nisha Arya er dataforsker, frilans teknisk skribent og samfunnsansvarlig i KDnuggets. Hun er spesielt interessert i å gi Data Science karriereråd eller veiledninger og teoribasert kunnskap rundt Data Science. Hun ønsker også å utforske de forskjellige måtene kunstig intelligens er/kan være til nytte for menneskets levetid. En ivrig elev som søker å utvide sine tekniske kunnskaper og skriveferdigheter, samtidig som hun hjelper til med å veilede andre.
 

Tidstempel:

Mer fra KDnuggets