Pentingnya Probabilitas dalam Ilmu Data

Pentingnya Probabilitas dalam Ilmu Data

Node Sumber: 1973446

Pentingnya Probabilitas dalam Ilmu Data
Gambar oleh Penulis
 

Sebagai Ilmuwan Data, Anda pasti ingin mengetahui keakuratan hasil Anda untuk memastikan validitas. Alur kerja ilmu data adalah proyek terencana, dengan kondisi terkendali. Memungkinkan Anda untuk menilai setiap tahap dan bagaimana hal itu memberikan hasil Anda. 

Probabilitas adalah ukuran kemungkinan terjadinya suatu peristiwa/sesuatu. Ini adalah elemen penting dalam analisis prediktif yang memungkinkan Anda menjelajahi matematika komputasi di balik hasil Anda. 

Menggunakan contoh sederhana, mari kita lihat melempar koin: kepala (H) atau ekor (T). Probabilitas Anda akan menjadi jumlah cara suatu peristiwa dapat terjadi dibagi dengan jumlah total hasil yang mungkin. 

  • Jika kita ingin mencari probabilitas kepala, maka 1 (Kepala) / 2 (Kepala dan Ekor) = 0.5.
  • Jika kita ingin mencari probabilitas ekor, maka 1 (Ekor) / 2 (Kepala dan Ekor) = 0.5.

Tetapi kami tidak ingin mencampuradukkan kemungkinan dan probabilitas – ada perbedaan. Probabilitas adalah ukuran dari peristiwa atau hasil tertentu yang terjadi. Kemungkinan diterapkan ketika Anda ingin meningkatkan peluang terjadinya peristiwa atau hasil tertentu. 

Untuk memecahnya – probabilitas adalah tentang kemungkinan hasil, sedangkan kemungkinan adalah tentang hipotesis.

Istilah lain yang perlu diketahui adalah ''peristiwa yang saling eksklusif''. Ini adalah peristiwa yang tidak terjadi pada waktu yang bersamaan. Misalnya, Anda tidak dapat pergi ke kanan dan ke kiri secara bersamaan. Atau jika kita melempar koin, kita bisa mendapatkan kepala atau ekor, bukan keduanya. 

Jenis Probabilitas

  • Probabilitas Teoretis: ini berfokus pada seberapa besar kemungkinan suatu peristiwa akan terjadi dan didasarkan pada landasan penalaran. Menggunakan teori, hasilnya adalah nilai yang diharapkan. Dengan menggunakan contoh kepala dan ekor, probabilitas teoretis mendarat di kepala adalah 0.5 atau 50%. 
  • Probabilitas Eksperimental: ini berfokus pada seberapa sering peristiwa terjadi selama durasi percobaan. Menggunakan contoh kepala dan ekor – jika kita melempar koin 10 kali dan mendarat di kepala 6 kali, probabilitas percobaan koin mendarat di kepala adalah 6/10 atau 60%.

Probabilitas bersyarat adalah kemungkinan suatu peristiwa/hasil terjadi berdasarkan peristiwa/hasil yang ada. Misalnya, jika Anda bekerja untuk perusahaan asuransi, Anda mungkin ingin mengetahui kemungkinan seseorang dapat membayar asuransinya berdasarkan kondisi bahwa mereka telah mengambil pinjaman rumah. 

Probabilitas Bersyarat membantu Ilmuwan Data menghasilkan model dan keluaran yang lebih akurat dengan menggunakan variabel lain dalam kumpulan data. 

Distribusi probabilitas adalah fungsi statistik yang membantu menjelaskan kemungkinan nilai dan probabilitas untuk variabel acak dalam rentang tertentu. Kisaran akan memiliki kemungkinan nilai minimum dan maksimum, dan di mana mereka diplot pada grafik distribusi bergantung pada uji statistik.

Bergantung pada jenis data yang digunakan dalam proyek, Anda dapat mengetahui jenis distribusi yang Anda gunakan. Saya akan memecahnya menjadi dua kategori: distribusi diskrit dan distribusi kontinu. 

Distribusi Diskrit 

Distribusi diskrit adalah ketika data hanya dapat mengambil nilai tertentu atau memiliki jumlah hasil yang terbatas. Misalnya, jika Anda melempar dadu, nilai terbatas Anda adalah 1, 2, 3, 4, 5, dan 6.

Ada berbagai jenis distribusi diskrit. Misalnya:

  • Distribusi seragam diskrit adalah ketika semua hasil memiliki kemungkinan yang sama. Jika kita menggunakan contoh menggelindingkan dadu bersisi enam, ada peluang yang sama bahwa dadu tersebut akan mendarat di 1, 2, 3, 4, 5, atau 6 – ⅙. Namun, masalah dengan distribusi seragam diskrit adalah bahwa hal itu tidak memberi kita informasi yang relevan, yang dapat digunakan dan diterapkan oleh para ilmuwan data. 
  • Distribusi Bernoulli adalah jenis distribusi diskrit lainnya, di mana percobaan hanya memiliki dua kemungkinan hasil, baik ya atau tidak, 1 atau 2, benar atau salah. Ini dapat digunakan saat melempar koin, baik itu kepala atau ekor. Saat menggunakan distribusi Bernoulli, kami memiliki probabilitas salah satu hasil (p) dan kami dapat menguranginya dari probabilitas total (1), yang direpresentasikan sebagai (1-p).
  • Distribusi Binomial adalah urutan peristiwa Bernoulli dan merupakan distribusi probabilitas diskrit yang hanya dapat menghasilkan dua kemungkinan hasil dalam percobaan, baik berhasil atau gagal. Pada saat melempar koin, peluang terlemparnya koin akan selalu 1.5 atau ½ pada setiap percobaan yang dilakukan.
  • Distribusi racun adalah distribusi berapa kali suatu peristiwa mungkin terjadi selama periode atau jarak tertentu. Alih-alih berfokus pada suatu peristiwa yang terjadi, ini berfokus pada frekuensi suatu peristiwa yang terjadi dalam interval tertentu. Misalnya, jika 12 mobil melewati jalan tertentu pada pukul 11 ​​setiap hari, kita dapat menggunakan distribusi Poisson untuk mencari tahu berapa banyak mobil yang melewati jalan tersebut pada pukul 11 ​​dalam sebulan. 

Distribusi Berkelanjutan

Tidak seperti distribusi diskrit yang memiliki hasil terbatas, distribusi kontinu memiliki hasil kontinum. Distribusi ini biasanya muncul sebagai kurva atau garis pada grafik karena datanya kontinu.

  • Distribusi normal adalah salah satu yang mungkin pernah Anda dengar karena ini yang paling sering digunakan. Ini adalah distribusi nilai yang simetris di sekitar rata-rata, tanpa kemiringan. Data mengikuti bentuk lonceng saat diplot, di mana rentang tengahnya adalah rata-rata. Misalnya, karakteristik seperti tinggi badan, dan skor IQ mengikuti distribusi normal.
  • T-Distribusi adalah jenis distribusi kontinu yang digunakan ketika standar deviasi populasi (σ) tidak diketahui dan ukuran sampelnya kecil (n<30). Ini mengikuti bentuk yang sama dengan distribusi normal, kurva lonceng. Misalnya, jika kita melihat berapa batang coklat yang terjual dalam sehari, kita akan menggunakan distribusi normal. Namun, jika kita ingin melihat berapa banyak yang terjual dalam satu jam tertentu, kita akan menggunakan distribusi-t. 
  • Distribusi eksponensial adalah jenis distribusi probabilitas kontinu yang berfokus pada jumlah waktu hingga suatu peristiwa terjadi. Sebagai contoh, kita mungkin ingin melihat gempa bumi dan dapat menggunakan distribusi eksponensial. Jumlah waktu, mulai dari titik ini sampai gempa terjadi. Distribusi eksponensial diplot sebagai garis lengkung dan merepresentasikan probabilitas secara eksponensial.

Dari penjelasan di atas, Anda dapat melihat bagaimana data scientist dapat menggunakan probabilitas untuk lebih memahami data dan menjawab pertanyaan. Sangat berguna bagi data scientist untuk mengetahui dan memahami peluang terjadinya suatu peristiwa dan bisa sangat efektif dalam proses pengambilan keputusan. 

Anda akan terus bekerja dengan data dan Anda perlu mempelajarinya lebih lanjut sebelum melakukan segala bentuk analisis. Melihat distribusi data dapat memberi Anda banyak informasi dan dapat menggunakannya untuk menyesuaikan tugas, proses, dan model Anda untuk memenuhi distribusi data. 

Ini mengurangi waktu yang Anda habiskan untuk memahami data, memberikan alur kerja yang lebih efektif, dan menghasilkan keluaran yang lebih akurat. 

Banyak konsep ilmu data didasarkan pada dasar-dasar probabilitas.
 
 
Nisa Arya adalah Ilmuwan Data dan Penulis Teknis Freelance. Dia sangat tertarik untuk memberikan saran atau tutorial karir Ilmu Data dan pengetahuan berbasis teori seputar Ilmu Data. Dia juga ingin mengeksplorasi berbagai cara Kecerdasan Buatan dapat bermanfaat bagi umur panjang kehidupan manusia. Seorang pembelajar yang tajam, berusaha untuk memperluas pengetahuan teknologi dan keterampilan menulisnya, sambil membantu membimbing orang lain.
 

Stempel Waktu:

Lebih dari KDnugget