Data Statistik Penting yang Perlu Diketahui Ilmuwan

Node Sumber: 1876637

Data Statistik Penting yang Perlu Diketahui Ilmuwan

Beberapa konsep statistik dasar harus diapresiasi dengan baik oleh setiap data scientist — mulai dari penggila hingga profesional. Di sini, kami menyediakan cuplikan kode dengan Python untuk meningkatkan pemahaman guna memberikan Anda alat utama yang menghadirkan wawasan awal ke dalam data Anda.


By Lekshmi S. Sunil, IIT Indore '23 | Sarjana GHC '21.

Analisis statistik memungkinkan kita memperoleh wawasan berharga dari data yang ada. Pemahaman yang baik tentang konsep dan teknik statistik penting sangat penting untuk menganalisis data menggunakan berbagai alat.

Sebelum kita membahas detailnya, mari kita lihat topik yang dibahas dalam artikel ini:

  • Statistik Deskriptif vs Inferensial
  • Jenis Data
  • Probabilitas & Teorema Bayes
  • Ukuran Tendensi Sentral
  • Kecondongan
  • Kurtosis
  • Ukuran Dispersi
  • Kovarian
  • Korelasi
  • Distribusi Probabilitas
  • Pengujian Hipotesis
  • Regresi

Statistik Deskriptif vs Inferensial

Statistika secara keseluruhan berkaitan dengan pengumpulan, pengorganisasian, analisis, interpretasi, dan penyajian data. Dalam statistik, ada dua cabang utama:

  1. Statistik deskriptif: Ini melibatkan deskripsi fitur data, pengorganisasian dan penyajian data baik secara visual melalui bagan/grafik atau melalui perhitungan numerik menggunakan ukuran tendensi sentral, variabilitas, dan distribusi. Satu poin penting adalah bahwa kesimpulan diambil berdasarkan data yang sudah diketahui.
  2. Statistik Inferensial: Ini melibatkan penarikan kesimpulan dan membuat generalisasi tentang populasi yang lebih besar menggunakan sampel yang diambil dari mereka. Oleh karena itu, diperlukan perhitungan yang lebih kompleks. Hasil akhir dihasilkan dengan menggunakan teknik seperti pengujian hipotesis, korelasi, dan analisis regresi. Prediksi hasil masa depan dan kesimpulan yang ditarik melampaui tingkat data yang tersedia.

Jenis Data

Untuk melakukan Analisis Data Eksplorasi (EDA) yang tepat dengan menerapkan teknik statistik yang paling tepat, kita perlu memahami jenis data apa yang sedang kita kerjakan.

  1. Kategori data

Data kategorikal mewakili variabel kualitatif seperti jenis kelamin individu, golongan darah, bahasa ibu, dll. Data kategorikal juga berupa nilai numerik tanpa makna matematis. Misalnya, jika jenis kelamin adalah variabelnya, maka perempuan dapat direpresentasikan dengan 1 dan laki-laki dengan 0.

  • Data nominal: Nilai melabeli variabel, dan tidak ada hierarki yang ditentukan antara kategori, yaitu, tidak ada urutan atau arah—misalnya, agama, jenis kelamin, dll. Skala nominal dengan hanya dua kategori disebut "dikotomis".
  • Data ordinal: Urutan atau hierarki ada di antara kategori—misalnya, peringkat kualitas, tingkat pendidikan, nilai huruf siswa, dll.
  1. Data Numerik

Data numerik mewakili variabel kuantitatif yang dinyatakan hanya dalam bentuk angka. Misalnya, tinggi badan, berat badan, dll.

  • Data terpisah: Nilai dapat dihitung dan bilangan bulat (paling sering bilangan bulat). Misalnya, jumlah mobil di tempat parkir, jumlah negara, dll.
  • Data terus menerus: Pengamatan dapat diukur tetapi tidak dapat dihitung. Data mengasumsikan nilai apa pun dalam rentang — misalnya, berat, tinggi, dll. Data kontinu dapat dibagi lagi menjadi data interval (nilai terurut yang memiliki perbedaan yang sama di antara mereka tetapi tidak memiliki nol sebenarnya) dan data rasio (nilai terurut yang memiliki perbedaan yang sama antara mereka dan benar nol ada).

Probabilitas & Teorema Bayes

Probabilitas adalah ukuran kemungkinan suatu peristiwa akan terjadi.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Peristiwa Independen: Dua peristiwa independen jika kemunculan satu tidak mempengaruhi probabilitas kemunculan yang lain. P(A∩B) = P(A)P(B) di mana P(A) != 0 dan P(B) != 0.
  • Kejadian Saling Lepas : Dua kejadian saling lepas atau lepas jika keduanya tidak dapat terjadi pada waktu yang sama. P(A∩B) = 0 dan P(A∪B) = P(A)+P(B).
  • Probabilitas Bersyarat: Probabilitas suatu peristiwa A, mengingat bahwa peristiwa B lainnya telah terjadi. Ini diwakili oleh P(A|B). P(A|B) = P(A∩B)/P(B), ketika P(B)>0.
  • Teorema Bayes

Ukuran Tendensi Sentral

Impor modul statistik.

  • Berarti: Nilai rata-rata kumpulan data.

numpy.mean() juga bisa digunakan.

  • rata-rata: Nilai tengah kumpulan data.

numpy.median() juga bisa digunakan.

  • mode: Nilai paling sering dalam kumpulan data.

Kapan menggunakan mean, median, dan modus?

Hubungan antara rata-rata, median, dan modus: Modus = 3 Median — 2 Rata-Rata

Kecondongan

Ukuran simetri, atau lebih tepatnya, kurangnya simetri (asimetri).

  • Distribusi normal/simetris: modus = median = rata-rata
  • Distribusi miring positif (kanan): mode < median < rata-rata
  • Distribusi miring negatif (kiri): mean < median < mode

Kurtosis

Ukuran apakah data berekor berat atau berekor ringan relatif terhadap distribusi normal, yaitu, mengukur "ekor" atau "puncak" distribusi.

  • Leptokurtik – kurtosis positif
  • Mesokurtik – distribusi normal
  • Platykurtic – kurtosis negatif

Skewness dan kurtosis menggunakan Python.

Ukuran Dispersi

Menjelaskan penyebaran / hamburan data di sekitar nilai pusat.

Range: Selisih antara nilai terbesar dan terkecil dalam kumpulan data.

Deviasi Kuartil: Kuartil kumpulan data membagi data menjadi empat bagian yang sama—kuartil pertama (Q1) adalah angka tengah antara angka terkecil dan median data. Kuartil kedua (Q2) adalah median dari kumpulan data. Kuartil ketiga (Q3) adalah angka tengah antara median dan angka terbesar. Penyimpangan kuartil adalah Q = ½ × (Q3 — Q1)

Rentang Interkuartil: IQR = Q3 — Q1

Perbedaan: Selisih kuadrat rata-rata antara setiap titik data dan rata-rata. Mengukur seberapa tersebar dataset relatif terhadap rata-rata.

Deviasi standar: Akar kuadrat varians.

Varians dan standar deviasi menggunakan Python.

Kovarian

Ini adalah hubungan antara sepasang variabel acak di mana perubahan dalam satu variabel menyebabkan perubahan pada variabel lain.

Kovariansi negatif, nol, dan positif.

Matriks kovarians dan representasi peta panasnya menggunakan Python.

Korelasi

Ini menunjukkan apakah dan seberapa kuat sepasang variabel terkait satu sama lain.


Matriks korelasi menggunakan data yang sama yang digunakan untuk kovarians.

Kovarian vs Korelasi.

Distribusi Probabilitas

Ada dua jenis distribusi probabilitas yang luas - Distribusi probabilitas Diskrit & Kontinu.

Distribusi Probabilitas Diskrit:

  • Distribusi Bernoulli

Sebuah variabel acak mengambil percobaan tunggal dengan hanya dua kemungkinan hasil: 1 (sukses) dengan probabilitas p dan 0 (kegagalan) dengan probabilitas 1-p.

  • Distribusi Binomial

Setiap percobaan independen. Hanya ada dua hasil yang mungkin dalam percobaan - baik sukses atau gagal. Sejumlah n percobaan identik dilakukan. Probabilitas keberhasilan dan kegagalan adalah sama untuk semua percobaan. (Uji coba identik.)

  • Distribusi racun

Mengukur probabilitas sejumlah peristiwa yang terjadi dalam periode waktu tertentu.

Distribusi Probabilitas Berkelanjutan:

  • Distribusi Seragam

Juga disebut distribusi persegi panjang. Semua hasil memiliki kemungkinan yang sama.


  • Distribusi Normal/Gaussian

Rata-rata, median, dan modus distribusi bertepatan. Kurva distribusi berbentuk lonceng dan simetris terhadap garis x = μ. Luas total di bawah kurva adalah 1. Tepat setengah dari nilai berada di kiri tengah dan separuh lainnya di kanan.

Distribusi normal sangat berbeda dengan Distribusi Binomial. Namun, jika jumlah percobaan mendekati tak terhingga, maka bentuknya akan sangat mirip.

  • Distribusi eksponensial

Distribusi probabilitas waktu antar peristiwa dalam proses titik Poisson, yaitu proses di mana peristiwa terjadi secara terus-menerus dan mandiri dengan laju rata-rata yang konstan.

Pengujian Hipotesis

Pertama, mari kita lihat perbedaan antara hipotesis nol dan hipotesis alternatif.

Hipotesis nol: Pernyataan tentang parameter populasi yang diyakini benar atau digunakan untuk mengajukan argumen kecuali dapat dibuktikan tidak benar dengan pengujian hipotesis.

Hipotesis alternatif: Klaim tentang populasi yang bertentangan dengan hipotesis nol dan apa yang kita simpulkan jika kita menolak hipotesis nol.

Kesalahan tipe I: Penolakan hipotesis nol yang benar

Kesalahan tipe II: Non-penolakan hipotesis nol palsu

Tingkat signifikansi (α): Probabilitas menolak hipotesis nol padahal itu benar.

nilai-p: Probabilitas statistik uji setidaknya sama ekstrimnya dengan yang diamati mengingat hipotesis nol itu benar.

  • Ketika p-value > α, kami gagal menolak hipotesis nol.
  • Sementara p-value ≤ α, kami menolak hipotesis nol, dan kami dapat menyimpulkan bahwa kami memiliki hasil yang signifikan.

Dalam pengujian hipotesis statistik, suatu hasil memiliki signifikansi statistik ketika sangat tidak mungkin terjadi dengan hipotesis nol.

Nilai kritis: Suatu titik pada skala statistik uji di luar itu kami menolak hipotesis nol. Itu tergantung pada statistik uji, yang khusus untuk jenis uji, dan tingkat signifikansi, α, yang menentukan sensitivitas uji.

linear Regression

Regresi Linier biasanya merupakan algoritme ML pertama yang kami temui. Ini sederhana, dan memahaminya meletakkan dasar untuk algoritme ML lanjutan lainnya.

Regresi Linier Sederhana

Pendekatan linier untuk memodelkan hubungan antara variabel dependen dan satu variabel independen.

Kita harus menemukan parameternya sehingga model tersebut paling sesuai dengan data. Garis regresi (yaitu, garis yang paling cocok) adalah garis yang kesalahannya antara nilai prediksi dan nilai yang diamati adalah minimum.

Garis regresi.

Sekarang, mari kita coba terapkan ini.

Regresi Linier Berganda

Pendekatan linier untuk memodelkan hubungan antara variabel dependen dan dua atau lebih variabel independen.

Original. Diposting ulang dengan izin.

Terkait:

Sumber: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Stempel Waktu:

Lebih dari KDnugget