Bilim Adamlarının Bilmesi Gereken Önemli İstatistik Verileri

Kaynak Düğüm: 1876637

Bilim Adamlarının Bilmesi Gereken Önemli İstatistik Verileri

Birkaç temel istatistiksel kavram, meraklısından profesyoneline kadar her veri bilimcisi tarafından iyi değerlendirilmelidir. Burada, size verilerinize erkenden içgörü kazandıran temel araçları sağlamak üzere anlayışı artırmak için Python'da kod parçacıkları sağlıyoruz.


By Lekshmi S. Sunil, HTE Kapalı '23 | GHC '21 Bursiyeri.

İstatistiksel analiz, eldeki verilerden değerli bilgiler elde etmemizi sağlar. Çeşitli araçları kullanarak verileri analiz etmek için önemli istatistiksel kavramların ve tekniklerin sağlam bir şekilde kavranması kesinlikle gereklidir.

Ayrıntılara girmeden önce bu yazıda ele alınan konulara bir göz atalım:

  • Tanımlayıcı ve Çıkarımsal İstatistikler
  • Veri tipleri
  • Olasılık ve Bayes Teoremi
  • Merkezi Eğilim Ölçüleri
  • çarpıklık
  • Basıklık
  • Dağılma ölçüleri
  • Kovaryans
  • Ilişki
  • Olasılık Dağılımları
  • Hipotez testi
  • Gerileme

Tanımlayıcı ve Çıkarımsal İstatistikler

Bir bütün olarak istatistik, verilerin toplanması, düzenlenmesi, analizi, yorumlanması ve sunulması ile ilgilenir. İstatistik içinde iki ana dal vardır:

  1. Tanımlayıcı istatistikler: Bu, verilerin özelliklerinin tanımlanmasını, verilerin şemalar/grafikler aracılığıyla görsel olarak düzenlenmesini ve sunulmasını veya merkezi eğilim, değişkenlik ve dağılım ölçülerini kullanarak sayısal hesaplamalar yoluyla sunulmasını içerir. Dikkate değer bir nokta, sonuçların zaten bilinen verilere dayanarak çıkarılmasıdır.
  2. Çıkarımsal istatistik: Bu, onlardan alınan örnekleri kullanarak daha büyük popülasyonlar hakkında çıkarımlar yapmayı ve genellemeler yapmayı içerir. Bu nedenle, daha karmaşık hesaplamalar gereklidir. Nihai sonuçlar, hipotez testi, korelasyon ve regresyon analizi gibi teknikler kullanılarak üretilir. Öngörülen gelecekteki sonuçlar ve çıkarılan sonuçlar, mevcut veri seviyesinin ötesine geçer.

Veri tipleri

En uygun istatistiksel teknikleri uygulayarak uygun Keşifsel Veri Analizi (EDA) yapmak için, ne tür veriler üzerinde çalıştığımızı anlamamız gerekir.

  1. Kategorik Veri

Kategorik veriler, bireyin cinsiyeti, kan grubu, anadili vb. niteliksel değişkenleri temsil eder. Kategorik veriler de herhangi bir matematiksel anlamı olmayan sayısal değerler biçiminde olabilir. Örneğin, değişken cinsiyet ise, kadın 1 ve erkek 0 ile temsil edilebilir.

  • Nominal veri: Değerler değişkenleri etiketler ve kategoriler arasında tanımlanmış bir hiyerarşi yoktur, yani herhangi bir düzen veya yön yoktur - örneğin din, cinsiyet vb. Sadece iki kategori içeren nominal ölçekler "ikilik" olarak adlandırılır.
  • Sıra verileri: Kategoriler arasında düzen veya hiyerarşi vardır; örneğin, kalite derecelendirmeleri, eğitim düzeyi, öğrenci harf notları vb.
  1. Sayısal veri

Sayısal veriler, yalnızca sayılarla ifade edilen nicel değişkenleri temsil eder. Örneğin, bir bireyin boyu, kilosu vb.

  • Ayrık veri: Değerler sayılabilir ve tam sayılardır (çoğunlukla tam sayılar). Örneğin, bir otoparktaki araba sayısı, ülke sayısı vb.
  • Sürekli veri: Gözlemler ölçülebilir ancak sayılamaz. Veriler, bir aralık içindeki herhangi bir değeri varsayar - örneğin ağırlık, boy vb. aralarında ve gerçek sıfır var).

Olasılık ve Bayes Teoremi

Olasılık, bir olayın meydana gelme olasılığının ölçüsüdür.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) - P(A∩B)
  • Bağımsız Olaylar: Birinin gerçekleşmesi diğerinin olma olasılığını etkilemiyorsa iki olay bağımsızdır. P(A∩B) = P(A)P(B) burada P(A) != 0 ve P(B) != 0.
  • Karşılıklı Dışlayıcı Olaylar: İki olay, aynı anda gerçekleşemezlerse, birbirini dışlar veya ayrıktır. P(A∩B) = 0 ve P(A∪B) = P(A)+P(B).
  • Şartlı olasılık: Başka bir B olayının halihazırda gerçekleşmiş olması koşuluyla, bir A olayının olasılığı. Bu, P(A|B) ile temsil edilir. P(A|B) = P(A∩B)/P(B), P(B)>0 olduğunda.
  • Bayes teoremi

Merkezi Eğilim Ölçüleri

İstatistik modülünü içe aktarın.

  • Anlamına gelmek: Veri kümesinin ortalama değeri.

numpy.mean() da kullanılabilir.

  • Medyan: Veri kümesinin orta değeri.

numpy.median( ) da kullanılabilir.

  • Moda: Veri kümesindeki en sık kullanılan değer.

Ortalama, medyan ve mod ne zaman kullanılır?

Ortalama, medyan ve mod arasındaki ilişki: Mod = 3 Medyan — 2 Ortalama

çarpıklık

Bir simetri ölçüsü veya daha doğrusu simetri eksikliği (asimetri).

  • Normal/simetrik dağılım: mod = medyan = ortalama
  • Pozitif (sağa) çarpık dağılım: mod < medyan < ortalama
  • Negatif (sola) çarpık dağılım: ortalama < medyan < mod

Basıklık

Verilerin normal bir dağılıma göre ağır kuyruklu mu yoksa hafif kuyruklu mu olduğunun ölçüsü, yani bir dağılımın "kuyruklu" veya "zirveli" durumunu ölçer.

  • Leptokurtic - pozitif basıklık
  • Mezokurtik - normal dağılım
  • Platykurtic - negatif basıklık

Python kullanarak çarpıklık ve basıklık.

Dağılma ölçüleri

Verilerin merkezi bir değer etrafında yayılmasını/dağılmasını açıklar.

Menzil: Veri kümesindeki en büyük ve en küçük değer arasındaki fark.

Çeyrek Sapması: Bir veri kümesinin çeyrekleri, verileri dört eşit parçaya böler; ilk çeyrek (Q1), en küçük sayı ile verinin medyanı arasındaki ortadaki sayıdır. İkinci çeyrek (Q2), veri setinin ortancasıdır. Üçüncü çeyrek (Q3), medyan ile en büyük sayı arasındaki ortadaki sayıdır. Çeyrek sapma S = ½ × (Q3 — Q1)

Çeyrekler Arası Aralık: IQR = Q3 — Q1

Varyans: Her veri noktası ile ortalama arasındaki ortalama kare farkı. Veri kümesinin ortalamaya göre ne kadar yayıldığını ölçer.

Standart sapma: Varyansın karekökü.

Python kullanarak varyans ve standart sapma.

Kovaryans

Bir değişkendeki değişikliğin başka bir değişkende değişikliğe neden olduğu bir çift rastgele değişken arasındaki ilişkidir.

Negatif, sıfır ve pozitif kovaryans.

Python kullanarak kovaryans matrisi ve ısı haritası gösterimi.

Ilişki

Bir değişken çiftinin birbiriyle ilişkili olup olmadığını ve ne kadar güçlü olduğunu gösterir.


Kovaryans için kullanılan aynı verileri kullanan korelasyon matrisi.

Kovaryans ve Korelasyon.

Olasılık Dağılımları

İki geniş olasılık dağılımı türü vardır - Ayrık ve Sürekli olasılık dağılımları.

Ayrık Olasılık Dağılımı:

  • Bernoulli Dağılımı

Rastgele bir değişken, yalnızca iki olası sonuçla tek bir deneme alır: p olasılıkla 1 (başarı) ve 0-p olasılıkla 1 (başarısızlık).

  • Binom dağılımı

Her deneme bağımsızdır. Bir denemede yalnızca iki olası sonuç vardır - ya başarı ya da başarısızlık. Toplam n adet özdeş deneme yapılır. Başarı ve başarısızlık olasılığı tüm denemeler için aynıdır. (Denemeler aynıdır.)

  • Poisson Dağılımı

Belirli bir zaman diliminde belirli sayıda olayın olma olasılığını ölçer.

Sürekli Olasılık Dağılımı:

  • Üniforma dağıtımı

Dikdörtgen dağılım da denir. Tüm sonuçlar eşit derecede olasıdır.


  • Normal/Gauss Dağılımı

Dağılımın ortalaması, ortancası ve modu çakışır. Dağılımın eğrisi çan şeklindedir ve doğruya göre simetriktir. x = μ. Eğrinin altındaki toplam alan 1'dir. Değerlerin tam olarak yarısı merkezin solunda, diğer yarısı sağdadır.

Normal bir dağılım, Binom Dağılımı'ndan oldukça farklıdır. Ancak deneme sayısı sonsuza yaklaşırsa şekiller oldukça benzer olacaktır.

  • Üstel Dağılım

Bir Poisson noktası sürecindeki olaylar arasındaki zamanın olasılık dağılımı, yani olayların sürekli ve bağımsız olarak sabit bir ortalama hızda meydana geldiği bir süreç.

Hipotez testi

İlk olarak, sıfır hipotezi ile alternatif hipotez arasındaki farka bir göz atalım.

Sıfır hipotezi: Doğru olduğuna inanılan ya da hipotez testiyle yanlış olduğu gösterilemedikçe bir argüman ortaya koymak için kullanılan popülasyon parametresi hakkında ifade.

Alternatif hipotez: Sıfır hipotezine aykırı olan popülasyon hakkında iddia ve sıfır hipotezini reddedersek ne sonuca varırız.

Tip I hatası: Gerçek bir sıfır hipotezinin reddi

Tip II hatası: Yanlış bir sıfır hipotezinin reddedilmemesi

Önem düzeyi (α): Doğru olduğunda boş hipotezin reddedilme olasılığı.

p değeri: Sıfır hipotezinin doğru olduğu göz önüne alındığında, test istatistiğinin en azından gözlemlenen kadar aşırı olma olasılığı.

  • p-değeri > α olduğunda, sıfır hipotezini reddetmekte başarısız oluruz.
  • p-değeri ≤ α iken sıfır hipotezini reddederiz ve anlamlı bir sonuca sahip olduğumuz sonucuna varabiliriz.

İstatistiksel hipotez testinde, sıfır hipotezi verildiğinde meydana gelme olasılığı çok düşük olduğunda bir sonucun istatistiksel önemi vardır.

Kritik değer: Test istatistiği ölçeğinde, ötesinde boş hipotezi reddettiğimiz bir nokta. Test türüne özgü bir test istatistiğine ve testin hassasiyetini tanımlayan anlamlılık düzeyi α'ya bağlıdır.

Doğrusal regresyon

Doğrusal Regresyon genellikle karşımıza çıkan ilk makine öğrenimi algoritmasıdır. Basittir ve anlaşılması, diğer gelişmiş makine öğrenimi algoritmalarının temelini oluşturur.

Basit Doğrusal Regresyon

Bir bağımlı değişken ile bir bağımsız değişken arasındaki ilişkiyi modellemek için doğrusal yaklaşım.

Modelin verilere en iyi şekilde uyması için parametreleri bulmalıyız. gerileme çizgisi (yani, en uygun çizgi) hatanın olduğu çizgidir. tahmin edilen değerler ile gözlemlenen değerler arasındaki minimumdur.

Regresyon hattı.

Şimdi bunu uygulamaya çalışalım.

Çoklu doğrusal regresyon

Bir bağımlı değişken ile iki veya daha fazla bağımsız değişken arasındaki ilişkiyi modellemeye yönelik doğrusal yaklaşım.

orijinal. İzinle yeniden yayınlandı.

İlgili:

Kaynak: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Zaman Damgası:

Den fazla KDNuggets