The Base Rate Fallacy And Its Impact On Data Science

Taasavaldanud Platon

järgijaid: 0

Baasmäära eksitus ja selle mõju andmeteadusele
Pilt autorilt

Andmete ja erinevate muutujatega töötades on ühe muutuja või väärtuse määramine teisest suuremaks lihtne. Võime eeldada, et konkreetne muutuja või andmepunkt avaldas väljundile suuremat mõju, kuid kui kindlad oleme, et teistel muutujatel on võrdne mõju?

Statistikas võib baasmäära vaadelda kui klasside tõenäosust, mis on tingimusteta "funktsionaalsetele tõenditele". Baasintressi näete oma eelneva tõenäosuse eeldusena.

Baasmäärad on uurimistöös olulised vahendid. Näiteks kui oleme ravimifirma ja töötame välja uut vaktsineerimist, tahame uurida ravi edukust. Kui meil on 4000 inimest, kes on valmis seda vaktsineerima ja meie baasmäär on 1/25.

See tähendab, et 160 inimesest paraneb raviga edukalt vaid 4000 inimest. Farmaatsiamaailmas on see väga madal eduprotsent. Nii saab baasmäärasid kasutada uurimistöö ja täpsuse parandamiseks ning toote hea toimimise tagamiseks.

Kui me sõnad pooleks jagame, annab see meile parema arusaamise. Eksitus tähendab ekslikku veendumust või vigast arutluskäiku. Kui me nüüd ühendame selle meie ülaltoodud baasmäära määratlusega.

Baasintressimäära eksitus, mida tuntakse ka kui baasmäära nihket ja baasmäära tähelepanuta jätmist, on tõenäoline, et hinnatakse konkreetset olukorda, võttes samal ajal arvesse kõiki asjakohaseid andmeid.

Baasintressi väärus sisaldab teavet baasintressimäära kohta ja muud asjakohast teavet. See võib olla tingitud erinevatest põhjustest, nagu andmete mitte põhjalik uurimine ja analüüsimine või teadmatus eelistada teatud osa andmetest.

Baasmäära eksitus kirjeldab tendentsi, et keegi eirab olemasolevat baasmäära teavet, surub peale ja pooldab uut teavet. See on vastuolus tõenduspõhise arutluskäigu põhireeglitega.

Tavaliselt kuulete sellest finantssektoris toimuvast. Näiteks lähtuvad investorid oma ostu- või jagamistaktikas ebaratsionaalsest teabest, mis toob kaasa turu kõikumise – hoolimata sellest, et baasintress on neile teada.

Seega on meil nüüd parem arusaam baasintressimäärast ja baasmäära väärusest. Milline on selle tähtsus ja mõju andmeteaduses?

Oleme rääkinud "klasside tõenäosustest" ja "kõikide asjakohaste andmete arvessevõtmisest". Kui olete andmeteadlane või masinõppeinsener või olete oma jala ukse vahele jätnud – teate, kui olulised on tõenäosused ja asjakohased andmed täpsete väljundite, masinõppemudeli õppeprotsessi ja suure jõudlusega mudelite loomisel.

Andmete analüüsimiseks ja prognoosimiseks või masinõppemudeli jaoks täpsete väljundite saamiseks peate arvestama iga andmetega. Kui vaatate oma andmeid esimest korda, kui näete neid, võite pidada mõnda osa asjakohasteks ja teisi ebaolulisteks. Kuid see on teie otsus ja see ei ole veel faktiline enne, kui on tehtud õige analüüs.

Nagu eespool mainitud, aitab esialgne baasmäär tagada täpsuse ja toota suure jõudlusega mudeleid. Niisiis, kuidas me saame seda andmeteaduses teha?

Segadusmaatriks

Segadusmaatriks on jõudluse mõõtmine, mis annab kokkuvõtte klassifitseerimisprobleemi prognoositulemustest. Segadusmaatriksid põhinevad kõik tulemusel: tõene, vale, positiivne ja negatiivne.

Segadusmaatriks esindab meie mudeli ennustusi testimisetapi ajal. Valenegatiivne ja valepositiivne segadusmaatriksis on näited baasmäära eksimisest.

Tõeline positiivne (TP) – teie mudel ennustas positiivset ja see on positiivne
Tõeline negatiivne (TN) – teie mudel ennustas negatiivset ja see on negatiivne
Valepositiivne (FP) – teie mudel ennustas positiivset ja see on negatiivne
Valenegatiivne (FN) – teie mudel ennustas negatiivset ja see on positiivne

Segadusmaatriks võib arvutada 5 erinevat mõõdikut, mis aitavad meil mõõta meie mudeli kehtivust:

Vale klassifikatsioon = FP + FN / TP + TN + FP + FN
Täpsus = TP / TP + FP
Täpsus = TP + TN / TP + TN + FP + FN
Spetsiifilisus = TN / TN + FP
Tundlikkus ehk tagasikutsumine = TP / TP + FN

Segadusmaatriksi paremaks mõistmiseks on parem vaadata visualiseerimist:

Baasmäära eksitus ja selle mõju andmeteadusele
Pilt autorilt

Seda artiklit läbides võite tõenäoliselt mõelda mitmetele baasmäära eksliku põhjustele, nagu kõigi asjakohaste andmete mittearvestamine, inimlikud vead või ebatäpsus.

Kuigi need kõik vastavad tõele ja lisavad baasintressimäära ekslikkust. Need kõik on seotud põhimäära teabe ignoreerimise suurima probleemiga. Teavet baasmäära kohta eiratakse sageli, kuna seda peetakse ebaoluliseks, kuid baasmäära teave võib säästa inimeste aega ja raha. Olemasoleva baasintressimäära teabe kasutamine võimaldab teil konkreetse sündmuse toimumise tõenäosuse määramisel olla täpsem.

Põhimäära teabe kasutamine aitab vältida baasintressimäära ekslikkust.

Olles teadlik eksimustest, nagu arvamused, automaatsed protsessid jne – võimaldab teil võidelda baasintressimäära eksliku probleemiga ja vähendada võimalikke vigu. Kui mõõdate teatud sündmuse toimumise tõenäosust, võivad Bayesi meetodid aidata baasmäära ekslikkust vähendada.

Baasmäär on andmeteaduses oluline, kuna see annab teile baasteadmised selle kohta, kuidas oma uuringut või projekti hinnata ja mudelit täpsustada, tagades üldise täpsuse ja jõudluse suurenemise.

Kui soovite vaadata videot baasmäära eksimisest meditsiinivaldkonnas, vaadake seda videot: Meditsiinilise testi paradoks

Nisha Arya on andmeteadlane, vabakutseline tehniline kirjanik ja kogukonnajuht ettevõttes KDnuggets. Ta on eriti huvitatud andmeteaduse karjäärinõustamise või õpetuste ja teooriapõhiste teadmiste pakkumisest andmeteaduse kohta. Samuti soovib ta uurida erinevaid viise, kuidas tehisintellekt on/võib aidata kaasa inimelu pikaealisusele. Innukas õppija, kes soovib laiendada oma tehnilisi teadmisi ja kirjutamisoskusi, aidates samal ajal teisi juhendada.

Veel selle teema kohta

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. Juurdepääs siia.
Tuleviku rahapaja Adryenn Ashley. Juurdepääs siia.
Allikas: https://www.kdnuggets.com/2023/04/base-rate-fallacy-impact-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=the-base-rate-fallacy-and-its-impact-on-data-science

Ajatempel: Aprill 20, 2023

Ultimate avatud lähtekoodiga suure keele mudeli ökosüsteem

Allikaklaster:

KDnuggets

Allikasõlm: 2630066

Ajatempel: Võib 4 2023

Taasavaldanud Platon

Tõstke oma otsingumootori oskusi Uplimiti otsingu abil ML-kursusega! – KDnuggets

Mida ChatGPT teeb ja miks see töötab?

Nutikas sissevõtmine: ontoloogiapõhise AI kasutamine

2023: hull AI aasta – KDnuggets

KDnuggetsi uudised, 6. detsember: GitHubi hoidlad peamiseks masinõppeks • 5 tasuta Master Data Engineering'i kursust – KDnuggets

Ultimate avatud lähtekoodiga suure keele mudeli ökosüsteem

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto