Paradoks Berkson-Jekel in njegov pomen za podatkovno znanost

Paradoks Berkson-Jekel in njegov pomen za podatkovno znanost

Izvorno vozlišče: 2550862

Paradoks Berkson-Jekel in njegov pomen za podatkovno znanost
Slika avtorja
 

Če ste podatkovni znanstvenik ali ambiciozen, boste vedeli, kako pomembna je statistika v sektorju. Statistika podatkovnim znanstvenikom pomaga pri zbiranju, analizi in razlagi podatkov z ugotavljanjem vzorcev in trendov, da nato naredijo prihodnje napovedi.

Statistični paradoks je, ko je statistični rezultat v nasprotju s pričakovanji. Zelo težko je natančno določiti točen vzrok, saj je težko razumeti podatke brez uporabe nadaljnjih metod. Vendar pa so pomemben element za podatkovne znanstvenike, saj jim dajejo idejo o tem, kaj bi lahko povzročilo zavajajoče rezultate. 

Tukaj je seznam statističnih paradoksov, pomembnih za podatkovno znanost:

  • Simpsonov paradoks
  • Berksonov paradoks
  • Lažno pozitiven paradoks
  • Paradoks natančnosti
  • Paradoks učljivosti-Godel

V tem članku se bomo osredotočili na paradoks Berkson-Jekel in njegovo pomembnost za podatkovno znanost. 

Paradoks Berkson-Jekel je, ko sta dve spremenljivki v podatkih korelirani, ko pa so podatki združeni ali podnabori, korelacija ni prepoznana. Povedano laično, korelacija je različna v različnih podskupinah podatkov.

Paradoks Berkson-Jekel je dobil ime po prvih statistikih, ki so opisali paradoks, Josephu Berksonu in Johnu Jekelu. Paradoks Berkson-Jekel je bil odkrit, ko sta statistika preučevala korelacijo med kajenjem in pljučnim rakom. Med študijo so ugotovili povezavo med ljudmi, ki so bili hospitalizirani zaradi pljučnice in pljučnega raka, v primerjavi s splošno populacijo. Vendar pa so izvedli nadaljnje raziskave, ki so pokazale, da je bila povezava posledica tega, da so bili kadilci pogosteje hospitalizirani zaradi pljučnice v primerjavi z ljudmi, ki niso kadili.

Zakaj se to zgodi?

Na podlagi statistikove prve raziskave o paradoksu Berkson-Jekel lahko rečete, da je bilo potrebnih več raziskav, da bi ugotovili natančen razlog za korelacijo. Vendar pa obstajajo tudi drugi razlogi, zakaj pride do paradoksa Berkson-Jekel.

  • Skrite spremenljivke: nabori podatkov lahko vsebujejo skrite spremenljivke, ki vplivajo na rezultate. Zato pri študiji med korelacijo dveh spremenljivk podatkovni znanstveniki in raziskovalci morda niso upoštevali vseh možnih dejavnikov. 
  • Pristranskost vzorca: vzorec podatkov morda ni reprezentativen za populacijo, kar lahko povzroči zavajajoče korelacije. 
  • Korelacija proti vzročnosti: pomembna stvar, ki si jo morate zapomniti v podatkovni znanosti, je, da korelacija ne pomeni vzročnosti. Dve spremenljivki sta lahko povezani, vendar to ne pomeni, da ena povzroča drugo.

Statistično razmišljanje je v znanosti o podatkih zelo pomembno, glavna težava pa je spopadanje z zavajajočimi rezultati. Kot podatkovni znanstvenik želite zagotoviti točne rezultate, ki jih je mogoče uporabiti v procesu odločanja in za prihodnje napovedi. Napačne napovedi ali zavajajoči rezultati so zadnja stvar na kartah. 

Kako se izogniti paradoksu Berkson-Jekel

Obstaja nekaj metod, s katerimi se lahko izognete paradoksu Berkson-Jekel:

Uporabite statistične metode za nadzor skritih spremenljivk

  • Statistično modeliranje: statistično modeliranje lahko uporabite za boljše razumevanje razmerja med dvema ali več spremenljivkami. Tako lahko prepoznate skrite spremenljivke, ki bi lahko vplivale na rezultat.
  • Randomizirana kontrolirana preskušanja: To je, ko so udeleženci naključno razporejeni v skupino za zdravljenje ali kontrolno skupino. To lahko podatkovnim znanstvenikom pomaga nadzorovati skrite spremenljivke, ki lahko vplivajo na rezultate njihove študije.
  • Združevanje rezultatov: združite lahko več rezultatov študije, da boste lažje razumeli študijo. Na ta način lahko podatkovni znanstveniki bolje razumejo in nadzorujejo skrite spremenljivke v vsaki študiji. 

Različni viri podatkov

Če imate opravka z zavajajočimi rezultati, ker vzorčni podatki niso reprezentativni za populacijo, bi bila rešitev uporaba podatkov iz različnih virov. To vam bo pomagalo pridobiti bolj reprezentativen vzorec populacije, raziskati več o spremenljivkah in bolje razumeti.

Zavajajoči rezultati lahko zadržijo podjetje. Zato morajo strokovnjaki za podatke pri delu s podatki razumeti omejitve podatkov, s katerimi delajo, različne spremenljivke in razmerje med njimi ter kako zmanjšati zavajajoče rezultate. 

Če želite izvedeti več o Simpsonovem paradoksu, preberite tole: Simpsonov paradoks in njegove posledice v podatkovni znanosti

Če želite izvedeti več o drugih statističnih paradoksih, preberite tole: 5 statističnih paradoksov, ki bi jih morali poznati podatkovni znanstveniki
 
 
Nisha Arya je podatkovni znanstvenik, samostojni tehnični pisec in vodja skupnosti pri KDnuggets. Še posebej jo zanima zagotavljanje kariernih nasvetov ali vadnic o podatkovni znanosti in na teoriji temelječega znanja o podatkovni znanosti. Prav tako želi raziskati različne načine, na katere umetna inteligenca koristi/lahko prispeva k dolgoživosti človeškega življenja. Zavzeta učenka, ki želi razširiti svoje tehnično znanje in pisne sposobnosti, hkrati pa pomaga usmerjati druge.
 

Časovni žig:

Več od KDnuggets