Taban Oranı Yanılgısı ve Veri Bilimi Üzerindeki Etkisi

Taban Oranı Yanılgısı ve Veri Bilimi Üzerindeki Etkisi

Kaynak Düğüm: 2597848

Taban Oranı Yanılgısı ve Veri Bilimi Üzerindeki Etkisi
Yazara göre resim
 

Veriler ve farklı değişkenlerle çalışırken, bir değişkeni veya değeri diğerinden büyük atamak kolaydır. Belirli bir değişkenin veya veri noktasının çıktı üzerinde daha fazla etkiye sahip olduğunu varsayabiliriz, ancak diğer değişkenlerin eşit etkiye sahip olduğundan ne kadar eminiz?

In statistics, the base rate can be seen as probabilities of classes that are unconditional on “featural evidence”. You can see the base rate as your prior probability assumption. 

Temel oranlar araştırmada önemli araçlardır. Örneğin, bir ilaç firmasıysak ve yeni bir aşı geliştirme ve dağıtım sürecindeysek, tedavinin başarısına bakmak isteriz. Bu aşıyı yaptırmak isteyen 4000 kişi olursa taban oranımız 1/25 olur. 

Bu, 160 kişiden sadece 4000 kişinin tedavi ile başarılı bir şekilde tedavi edileceği anlamına gelir. İlaç dünyasında bu çok düşük bir başarı oranıdır. Araştırmayı ve doğruluğu iyileştirmek ve ürünün iyi performans göstermesini sağlamak için temel oranlar bu şekilde kullanılabilir. 

Kelimeleri parçalara ayırırsak, bu bize daha iyi bir anlayış sağlayacaktır. Fallacy, yanlış bir inanç veya hatalı bir muhakeme anlamına gelir. Şimdi bunu yukarıdaki taban oran tanımımızla birleştirirsek. 

Baz oran yanlılığı ve baz oran ihmali olarak da bilinen taban oran yanılgısı, ilgili tüm verileri dikkate almamakla birlikte belirli bir durumu yargılama olasılığıdır. 

Taban oran yanılgısı, diğer ilgili bilgilerin yanı sıra taban oran hakkında da bilgi içerir. Bu, verilerin tam olarak incelenmemesi ve doğru analiz edilmemesi veya verilerin belirli bir bölümünün göz ardı edilmesi gibi çeşitli nedenlerden kaynaklanabilir. 

Baz oran yanılgısı, birisinin mevcut taban oran bilgisini göz ardı etme, zorlama ve yeni bilgiyi destekleme eğilimini tanımlar. Bu, kanıta dayalı akıl yürütmenin temel kurallarına aykırıdır.

You will typically hear about this happening in the financial industry. For example, investors will base their buying or sharing tactics on irrational information, which leads to fluctuation in the market – despite having the base rate to their knowledge. 

Şimdi taban oranı ve taban oranı yanılgısını daha iyi anlıyoruz. Veri Bilimindeki önemi ve etkisi nedir?

We’ve spoken about ‘probabilities of classes’ and ‘taking into consideration all relevant data’. If you are a data scientist, or machine learning engineer, or getting your foot in the door – you will know how important probabilities and relevant data are to producing accurate outputs, the learning process of your machine learning model and producing high-performance models. 

To analyse and make predictions about data or for your machine learning model to produce accurate outputs – you need to take into consideration every bit of data. As you’re scanning through your data the first time you see it, you might consider some parts relevant and other parts irrelevant. However, this is your judgement and is not yet factual till proper analysis has taken place. 

Yukarıda bahsedildiği gibi, başlangıç ​​taban oranı, doğruluğu sağlamanıza ve yüksek performanslı modeller üretmenize yardımcı olur. Peki bunu Veri Biliminde nasıl yapabiliriz?

Karışıklık Matrisi

Karışıklık Matrisi, bir sınıflandırma problemindeki tahmin sonuçlarının bir özetini sağlayan bir performans ölçümüdür. Karışıklık matrislerinin tümü şu sonuca bağlıdır: Doğru, Yanlış, Pozitif ve Negatif.

The confusion matrix represents our model’s predictions during the testing phase. The false-negative and false-positive in the confusion matrix are examples of base rate fallacy.

  • True Positive (TP) – your model predicted positive and it’s positive 
  • True Negative (TN) – your model predicted negative and it’s negative
  • False Positive (FP) – your model predicted positive and it’s negative
  • False Negative (FN) – your model predicted negative and it’s positive 

Bir karışıklık matrisi, modelimizin geçerliliğini ölçmemize yardımcı olmak için 5 farklı ölçümü hesaplayabilir:

  1. Yanlış sınıflandırma = FP + FN / TP + TN + FP + FN
  2. Kesinlik = TP / TP + FP
  3. Doğruluk = TP + TN / TP + TN + FP + FN
  4. Spesifiklik = TN / TN + FP
  5. Duyarlılık, diğer adıyla Geri Çağırma = TP / TP + FN

To better understand a confusion matrix, it’s better to look at a visualisation: 
 

Taban Oranı Yanılgısı ve Veri Bilimi Üzerindeki Etkisi
Yazara göre resim

Bu makaleyi incelerken muhtemelen temel oran yanılgısının ilgili tüm verileri dikkate almamak, insan hatası veya kesinlik eksikliği gibi çeşitli nedenlerini düşünebilirsiniz. 

Bunların hepsi doğru olsa da ve taban oran yanılgısının nedenini artırıyor. Hepsi, en başta taban oran bilgisinin göz ardı edilmesiyle ilgili en büyük sorunla ilgilidir. Taban ücret bilgisi, alakasız olduğu düşünüldüğünden genellikle göz ardı edilir, ancak, taban ücret bilgisi insanlara çok fazla zaman ve para kazandırabilir. Mevcut temel oran bilgisini kullanmak, belirli bir olayın gerçekleşip gerçekleşmeyeceği hakkında olasılıklar oluşturmada daha kesin olmanızı sağlar. 

Taban fiyat bilgisini kullanmak, taban oran yanılgısından kaçınmanıza yardımcı olacaktır. 

Being aware of fallacies such as opinions, automatic processes, etc – will allow you to combat the issue of base rate fallacy and reduce potential errors. When you are measuring the probability of a certain event occurring, Bayesian methods can help with this to reduce the base rate fallacy.  

The base rate is important in data science as it equips you with a base understanding of how to assess your study or project, and fine-tune your model – providing an overall increase in accuracy and performance.

Tıp alanındaki temel oran yanılgısı hakkında bir video izlemek isterseniz, şu videoyu izleyin: Tıbbi Test Paradoksu
 
 
Nişa Arya KDnuggets'ta bir Veri Bilimcisi, Serbest Teknik Yazar ve Topluluk Yöneticisidir. Veri Bilimi kariyer tavsiyesi veya eğitimleri ve Veri Bilimi hakkında teoriye dayalı bilgi sağlamakla özellikle ilgileniyor. Ayrıca, Yapay Zekanın insan yaşamının uzun ömürlülüğüne fayda sağladığı/sağlayabileceği farklı yolları keşfetmek istiyor. Başkalarına rehberlik ederken teknoloji bilgisini ve yazma becerilerini genişletmeye çalışan hevesli bir öğrenci.
 

Zaman Damgası:

Den fazla KDNuggets