Bilim Adamlarının Bilmesi Gereken Önemli İstatistik Verileri
Birkaç temel istatistiksel kavram, meraklısından profesyoneline kadar her veri bilimcisi tarafından iyi değerlendirilmelidir. Burada, size verilerinize erkenden içgörü kazandıran temel araçları sağlamak üzere anlayışı artırmak için Python'da kod parçacıkları sağlıyoruz.
By Lekshmi S. Sunil, HTE Kapalı '23 | GHC '21 Bursiyeri.
İstatistiksel analiz, eldeki verilerden değerli bilgiler elde etmemizi sağlar. Çeşitli araçları kullanarak verileri analiz etmek için önemli istatistiksel kavramların ve tekniklerin sağlam bir şekilde kavranması kesinlikle gereklidir.
Ayrıntılara girmeden önce bu yazıda ele alınan konulara bir göz atalım:
- Tanımlayıcı ve Çıkarımsal İstatistikler
- Veri tipleri
- Olasılık ve Bayes Teoremi
- Merkezi Eğilim Ölçüleri
- çarpıklık
- Basıklık
- Dağılma ölçüleri
- Kovaryans
- Ilişki
- Olasılık Dağılımları
- Hipotez testi
- Gerileme
Tanımlayıcı ve Çıkarımsal İstatistikler
Bir bütün olarak istatistik, verilerin toplanması, düzenlenmesi, analizi, yorumlanması ve sunulması ile ilgilenir. İstatistik içinde iki ana dal vardır:
- Tanımlayıcı istatistikler: Bu, verilerin özelliklerinin tanımlanmasını, verilerin şemalar/grafikler aracılığıyla görsel olarak düzenlenmesini ve sunulmasını veya merkezi eğilim, değişkenlik ve dağılım ölçülerini kullanarak sayısal hesaplamalar yoluyla sunulmasını içerir. Dikkate değer bir nokta, sonuçların zaten bilinen verilere dayanarak çıkarılmasıdır.
- Çıkarımsal istatistik: Bu, onlardan alınan örnekleri kullanarak daha büyük popülasyonlar hakkında çıkarımlar yapmayı ve genellemeler yapmayı içerir. Bu nedenle, daha karmaşık hesaplamalar gereklidir. Nihai sonuçlar, hipotez testi, korelasyon ve regresyon analizi gibi teknikler kullanılarak üretilir. Öngörülen gelecekteki sonuçlar ve çıkarılan sonuçlar, mevcut veri seviyesinin ötesine geçer.
Veri tipleri
En uygun istatistiksel teknikleri uygulayarak uygun Keşifsel Veri Analizi (EDA) yapmak için, ne tür veriler üzerinde çalıştığımızı anlamamız gerekir.
- Kategorik Veri
Kategorik veriler, bireyin cinsiyeti, kan grubu, anadili vb. niteliksel değişkenleri temsil eder. Kategorik veriler de herhangi bir matematiksel anlamı olmayan sayısal değerler biçiminde olabilir. Örneğin, değişken cinsiyet ise, kadın 1 ve erkek 0 ile temsil edilebilir.
- Nominal veri: Değerler değişkenleri etiketler ve kategoriler arasında tanımlanmış bir hiyerarşi yoktur, yani herhangi bir düzen veya yön yoktur - örneğin din, cinsiyet vb. Sadece iki kategori içeren nominal ölçekler "ikilik" olarak adlandırılır.
- Sıra verileri: Kategoriler arasında düzen veya hiyerarşi vardır; örneğin, kalite derecelendirmeleri, eğitim düzeyi, öğrenci harf notları vb.
- Sayısal veri
Sayısal veriler, yalnızca sayılarla ifade edilen nicel değişkenleri temsil eder. Örneğin, bir bireyin boyu, kilosu vb.
- Ayrık veri: Değerler sayılabilir ve tam sayılardır (çoğunlukla tam sayılar). Örneğin, bir otoparktaki araba sayısı, ülke sayısı vb.
- Sürekli veri: Gözlemler ölçülebilir ancak sayılamaz. Veriler, bir aralık içindeki herhangi bir değeri varsayar - örneğin ağırlık, boy vb. aralarında ve gerçek sıfır var).
Olasılık ve Bayes Teoremi
Olasılık, bir olayın meydana gelme olasılığının ölçüsüdür.
- P(A) + P(A') = 1
- P(A∪B) = P(A) + P(B) - P(A∩B)
- Bağımsız Olaylar: Birinin gerçekleşmesi diğerinin olma olasılığını etkilemiyorsa iki olay bağımsızdır. P(A∩B) = P(A)P(B) burada P(A) != 0 ve P(B) != 0.
- Karşılıklı Dışlayıcı Olaylar: İki olay, aynı anda gerçekleşemezlerse, birbirini dışlar veya ayrıktır. P(A∩B) = 0 ve P(A∪B) = P(A)+P(B).
- Şartlı olasılık: Başka bir B olayının halihazırda gerçekleşmiş olması koşuluyla, bir A olayının olasılığı. Bu, P(A|B) ile temsil edilir. P(A|B) = P(A∩B)/P(B), P(B)>0 olduğunda.
- Bayes teoremi
Merkezi Eğilim Ölçüleri
İstatistik modülünü içe aktarın.
- Anlamına gelmek: Veri kümesinin ortalama değeri.
numpy.mean() da kullanılabilir.
- Medyan: Veri kümesinin orta değeri.
numpy.median( ) da kullanılabilir.
- Moda: Veri kümesindeki en sık kullanılan değer.
Ortalama, medyan ve mod ne zaman kullanılır?
Ortalama, medyan ve mod arasındaki ilişki: Mod = 3 Medyan — 2 Ortalama
çarpıklık
Bir simetri ölçüsü veya daha doğrusu simetri eksikliği (asimetri).
- Normal/simetrik dağılım: mod = medyan = ortalama
- Pozitif (sağa) çarpık dağılım: mod < medyan < ortalama
- Negatif (sola) çarpık dağılım: ortalama < medyan < mod
Basıklık
Verilerin normal bir dağılıma göre ağır kuyruklu mu yoksa hafif kuyruklu mu olduğunun ölçüsü, yani bir dağılımın "kuyruklu" veya "zirveli" durumunu ölçer.
- Leptokurtic - pozitif basıklık
- Mezokurtik - normal dağılım
- Platykurtic - negatif basıklık
Python kullanarak çarpıklık ve basıklık.
Dağılma ölçüleri
Verilerin merkezi bir değer etrafında yayılmasını/dağılmasını açıklar.
Menzil: Veri kümesindeki en büyük ve en küçük değer arasındaki fark.
Çeyrek Sapması: Bir veri kümesinin çeyrekleri, verileri dört eşit parçaya böler; ilk çeyrek (Q1), en küçük sayı ile verinin medyanı arasındaki ortadaki sayıdır. İkinci çeyrek (Q2), veri setinin ortancasıdır. Üçüncü çeyrek (Q3), medyan ile en büyük sayı arasındaki ortadaki sayıdır. Çeyrek sapma S = ½ × (Q3 — Q1)
Çeyrekler Arası Aralık: IQR = Q3 — Q1
Varyans: Her veri noktası ile ortalama arasındaki ortalama kare farkı. Veri kümesinin ortalamaya göre ne kadar yayıldığını ölçer.
Standart sapma: Varyansın karekökü.
Python kullanarak varyans ve standart sapma.
Kovaryans
Bir değişkendeki değişikliğin başka bir değişkende değişikliğe neden olduğu bir çift rastgele değişken arasındaki ilişkidir.
Negatif, sıfır ve pozitif kovaryans.
Python kullanarak kovaryans matrisi ve ısı haritası gösterimi.
Ilişki
Bir değişken çiftinin birbiriyle ilişkili olup olmadığını ve ne kadar güçlü olduğunu gösterir.
Kovaryans için kullanılan aynı verileri kullanan korelasyon matrisi.
Kovaryans ve Korelasyon.
Olasılık Dağılımları
İki geniş olasılık dağılımı türü vardır - Ayrık ve Sürekli olasılık dağılımları.
Ayrık Olasılık Dağılımı:
- Bernoulli Dağılımı
Rastgele bir değişken, yalnızca iki olası sonuçla tek bir deneme alır: p olasılıkla 1 (başarı) ve 0-p olasılıkla 1 (başarısızlık).
- Binom dağılımı
Her deneme bağımsızdır. Bir denemede yalnızca iki olası sonuç vardır - ya başarı ya da başarısızlık. Toplam n adet özdeş deneme yapılır. Başarı ve başarısızlık olasılığı tüm denemeler için aynıdır. (Denemeler aynıdır.)
- Poisson Dağılımı
Belirli bir zaman diliminde belirli sayıda olayın olma olasılığını ölçer.
Sürekli Olasılık Dağılımı:
- Üniforma dağıtımı
Dikdörtgen dağılım da denir. Tüm sonuçlar eşit derecede olasıdır.
- Normal/Gauss Dağılımı
Dağılımın ortalaması, ortancası ve modu çakışır. Dağılımın eğrisi çan şeklindedir ve doğruya göre simetriktir. x = μ. Eğrinin altındaki toplam alan 1'dir. Değerlerin tam olarak yarısı merkezin solunda, diğer yarısı sağdadır.
Normal bir dağılım, Binom Dağılımı'ndan oldukça farklıdır. Ancak deneme sayısı sonsuza yaklaşırsa şekiller oldukça benzer olacaktır.
- Üstel Dağılım
Bir Poisson noktası sürecindeki olaylar arasındaki zamanın olasılık dağılımı, yani olayların sürekli ve bağımsız olarak sabit bir ortalama hızda meydana geldiği bir süreç.
Hipotez testi
İlk olarak, sıfır hipotezi ile alternatif hipotez arasındaki farka bir göz atalım.
Sıfır hipotezi: Doğru olduğuna inanılan ya da hipotez testiyle yanlış olduğu gösterilemedikçe bir argüman ortaya koymak için kullanılan popülasyon parametresi hakkında ifade.
Alternatif hipotez: Sıfır hipotezine aykırı olan popülasyon hakkında iddia ve sıfır hipotezini reddedersek ne sonuca varırız.
Tip I hatası: Gerçek bir sıfır hipotezinin reddi
Tip II hatası: Yanlış bir sıfır hipotezinin reddedilmemesi
Önem düzeyi (α): Doğru olduğunda boş hipotezin reddedilme olasılığı.
p değeri: Sıfır hipotezinin doğru olduğu göz önüne alındığında, test istatistiğinin en azından gözlemlenen kadar aşırı olma olasılığı.
- p-değeri > α olduğunda, sıfır hipotezini reddetmekte başarısız oluruz.
- p-değeri ≤ α iken sıfır hipotezini reddederiz ve anlamlı bir sonuca sahip olduğumuz sonucuna varabiliriz.
İstatistiksel hipotez testinde, sıfır hipotezi verildiğinde meydana gelme olasılığı çok düşük olduğunda bir sonucun istatistiksel önemi vardır.
Kritik değer: Test istatistiği ölçeğinde, ötesinde boş hipotezi reddettiğimiz bir nokta. Test türüne özgü bir test istatistiğine ve testin hassasiyetini tanımlayan anlamlılık düzeyi α'ya bağlıdır.
Doğrusal regresyon
Doğrusal Regresyon genellikle karşımıza çıkan ilk makine öğrenimi algoritmasıdır. Basittir ve anlaşılması, diğer gelişmiş makine öğrenimi algoritmalarının temelini oluşturur.
Basit Doğrusal Regresyon
Bir bağımlı değişken ile bir bağımsız değişken arasındaki ilişkiyi modellemek için doğrusal yaklaşım.
Modelin verilere en iyi şekilde uyması için parametreleri bulmalıyız. gerileme çizgisi (yani, en uygun çizgi) hatanın olduğu çizgidir. tahmin edilen değerler ile gözlemlenen değerler arasındaki minimumdur.
Regresyon hattı.
Şimdi bunu uygulamaya çalışalım.
Çoklu doğrusal regresyon
Bir bağımlı değişken ile iki veya daha fazla bağımsız değişken arasındaki ilişkiyi modellemeye yönelik doğrusal yaklaşım.
orijinal. İzinle yeniden yayınlandı.
İlgili:
Kaynak: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html
- "
- &
- algoritma
- algoritmalar
- Türkiye
- analiz
- uygulamalar
- ALAN
- etrafında
- göre
- İYİ
- kan
- dalları
- arabalar
- değişiklik
- sınıflandırma
- kod
- ülkeler
- eğri
- veri
- veri bilimi
- veri bilimcisi
- veri seti
- anlaşma
- Fırsatlar
- derin öğrenme
- Erken
- Eğitim
- Mühendislik
- vb
- Etkinlikler
- olaylar
- Excel
- Exclusive
- Yüz
- Başarısızlık
- Özellikler
- Ad
- uygun
- Airdrop Formu
- vakıf
- gelecek
- Cinsiyet
- grup
- okuyun
- Ne kadar
- HTTPS
- Artırmak
- anlayışlar
- IT
- anahtar
- öğrenme
- seviye
- çizgi
- makine öğrenme
- Yapımı
- ölçmek
- orta
- Microsoft
- ML
- ML algoritmaları
- model
- Modelleme
- anne
- sayılar
- açık
- sipariş
- kuruluşlar
- düzenleme
- Diğer
- otopark
- nüfus
- portföy
- Üretilmiş
- Python
- Q1
- kalite
- nicel
- menzil
- değerlendirme
- gerileme
- din
- Sonuçlar
- ölçek
- Bilim
- bilim adamları
- set
- Basit
- becerileri
- So
- yayılma
- Açıklama
- istatistik
- hikayeler
- Öğrenci
- başarı
- test
- Test yapmak
- zaman
- üst
- Konular
- deneme
- us
- değer
- ağ
- içinde
- X
- sıfır