Peruskorkovirhe ja sen vaikutus tietotieteeseen

Peruskorkovirhe ja sen vaikutus tietotieteeseen

Lähdesolmu: 2597848

Peruskorkovirhe ja sen vaikutus tietotieteeseen
Kuva tekijältä
 

Tietojen ja eri muuttujien kanssa työskennellessäsi yhden muuttujan tai arvon määrittäminen toista suuremmiksi on helppoa. Voimme olettaa, että tietyllä muuttujalla tai datapisteellä oli enemmän vaikutusta tuottoon, mutta kuinka varmoja olemme, että muut muuttujat vaikuttavat yhtä paljon?

Tilastoissa peruskorkoa voidaan pitää sellaisten luokkien todennäköisyyksinä, jotka ovat ehdottomia "ominaisuustodisteen" suhteen. Voit nähdä peruskoron aikaisempana todennäköisyysoletuksena. 

Peruskorot ovat tärkeitä työkaluja tutkimuksessa. Jos esimerkiksi olemme lääkeyhtiö ja kehittelemme ja lähetämme uutta rokotetta, haluamme tarkastella hoidon onnistumista. Jos meillä on 4000 ihmistä, jotka ovat valmiita ottamaan tämän rokotuksen, ja perusmäärämme on 1/25. 

Tämä tarkoittaa, että vain 160 ihmistä paranee onnistuneesti hoidolla 4000 ihmisestä. Lääkemaailmassa tämä on erittäin alhainen onnistumisprosentti. Näin perushintoja voidaan käyttää parantamaan tutkimusta ja tarkkuutta sekä varmistamaan, että tuote toimii hyvin. 

Jos jaamme sanat, se antaa meille paremman ymmärryksen. Virheellisyys tarkoittaa väärää uskomusta tai virheellistä päättelyä. Jos nyt yhdistämme sen edellä olevaan peruskoron määritelmäämme. 

Peruskoron harha, joka tunnetaan myös nimellä peruskoron harha ja peruskoron laiminlyönti, on todennäköisyys arvioida tietty tilanne, ottamatta huomioon kaikkia asiaankuuluvia tietoja. 

Peruskorkovirheessä on tietoa peruskorosta sekä muuta asiaankuuluvaa tietoa. Tämä voi johtua useista syistä, kuten tietojen perusteellisen tutkimisen ja analysoinnin puutteesta tai tietämättömyydestä suosia tiettyä osaa tiedoista. 

Peruskorkovirhe kuvaa taipumusta, että joku jättää huomioimatta olemassa olevat peruskorkotiedot, painostaa ja kannattaa uutta tietoa. Tämä on todisteisiin perustuvan päättelyn perussääntöjen vastaista.

Yleensä kuulet tästä rahoitusalalla. Esimerkiksi sijoittajat perustavat osto- tai jakamistaktiikkansa irrationaaliseen tietoon, mikä johtaa heilahteluihin markkinoilla – vaikka heillä on tiedossa peruskorko. 

Joten nyt meillä on parempi käsitys peruskorosta ja peruskoron virheellisyydestä. Mikä on sen merkitys ja vaikutus datatieteeseen?

Olemme puhuneet "luokkien todennäköisyyksistä" ja "kaiken asiaankuuluvan tiedon huomioonottamisesta". Jos olet datatieteilijä tai koneoppimisinsinööri tai saat jalkasi oven väliin – tiedät kuinka tärkeitä todennäköisyydet ja relevantti data ovat tarkkojen tulosten tuottamisessa, koneoppimismallisi oppimisprosessissa ja tehokkaiden mallien tuottamisessa. 

Analysoidaksesi ja tehdäksesi ennusteita datasta tai jotta koneoppimismallisi tuottaa tarkkoja tuloksia – sinun on otettava huomioon jokainen datan bitti. Kun selaat tietojasi ensimmäisen kerran, kun näet ne, saatat pitää joitakin osia merkityksellisinä ja toisia epäolennaisina. Tämä on kuitenkin sinun arviosi, eikä se ole vielä faktaa ennen kuin asianmukainen analyysi on tehty. 

Kuten edellä mainittiin, alkuperäinen perushinta auttaa varmistamaan tarkkuuden ja tuottamaan korkean suorituskyvyn malleja. Joten kuinka voimme tehdä tämän tietotieteessä?

Sekaannusmatriisi

Sekaannusmatriisi on suorituskykymittaus, joka tarjoaa yhteenvedon luokitusongelman ennustetuloksista. Sekaannusmatriisit perustuvat kaikki tulokseen: tosi, epätosi, positiivinen ja negatiivinen.

Sekaannusmatriisi edustaa mallimme ennusteita testausvaiheessa. Väärin negatiivinen ja väärä positiivinen sekaannusmatriisissa ovat esimerkkejä peruskoron virheellisyydestä.

  • True Positive (TP) – mallisi ennusti positiivista ja se on positiivinen 
  • True Negative (TN) – mallisi ennusti negatiivista ja se on negatiivinen
  • Väärä positiivinen (FP) – mallisi ennusti positiivisen ja se on negatiivinen
  • Väärä negatiivinen (FN) – mallisi ennusti negatiivista ja se on positiivinen 

Sekaannusmatriisi voi laskea viisi erilaista mittaria, jotka auttavat meitä mittaamaan mallimme validiteetin:

  1. Luokitteluvirhe = FP + FN / TP + TN + FP + FN
  2. Tarkkuus = TP / TP + FP
  3. Tarkkuus = TP + TN / TP + TN + FP + FN
  4. Spesifisyys = TN / TN + FP
  5. Herkkyys eli Recall = TP / TP + FN

Sekaannusmatriisin ymmärtämiseksi on parempi katsoa visualisointia: 
 

Peruskorkovirhe ja sen vaikutus tietotieteeseen
Kuva tekijältä

Kun käyt tätä artikkelia läpi, saatat luultavasti ajatella erilaisia ​​syitä peruskoron virheellisyyteen, kuten kaikkien asiaankuuluvien tietojen huomiotta jättäminen, inhimillinen virhe tai epätarkkuuden puute. 

Vaikka nämä kaikki ovat totta ja lisäävät peruskoron virheellistä syytä. Ne kaikki liittyvät suurimpaan ongelmaan, joka liittyy peruskorkotietojen huomiotta jättämiseen. Peruskorkotiedot jätetään usein huomiotta, koska niitä pidetään epäolennaisina, mutta peruskorkotiedot voivat säästää ihmisiltä paljon aikaa ja rahaa. Käytettävissä olevien peruskorkotietojen avulla voit olla tarkempi määrittäessäsi todennäköisyyksiä tietyn tapahtuman toteutumisesta. 

Peruskorkotietojen käyttäminen auttaa sinua välttämään peruskorkovirheen. 

Kun olet tietoinen virheistä, kuten mielipiteistä, automaattisista prosesseista jne., voit torjua peruskorkovirheitä ja vähentää mahdollisia virheitä. Kun mittaat tietyn tapahtuman todennäköisyyttä, Bayesin menetelmät voivat auttaa vähentämään peruskorkovirhettä.  

Peruskorko on tärkeä datatieteessä, koska se antaa sinulle perusymmärryksen tutkimuksesi tai projektisi arvioinnista ja mallin hienosäätämisestä – mikä lisää yleistä tarkkuutta ja suorituskykyä.

Jos haluat katsoa videon peruskoron virheellisyydestä lääketieteen alalla, katso tämä video: Lääketieteellisen testin paradoksi
 
 
Nisha Arya on datatieteilijä, freelance-tekninen kirjoittaja ja yhteisöpäällikkö KDnuggetsissa. Hän on erityisen kiinnostunut tarjoamaan datatieteen uraneuvontaa tai opetusohjelmia ja teoriapohjaista tietoa datatieteestä. Hän haluaa myös tutkia erilaisia ​​tapoja, joilla tekoäly on/voi edistää ihmiselämän pitkää ikää. Innokas oppija, joka haluaa laajentaa teknisiä tietojaan ja kirjoitustaitojaan samalla kun hän auttaa opastamaan muita.
 

Aikaleima:

Lisää aiheesta KDnuggets