Pendekatan Imputasi Data

Pendekatan Imputasi Data

Node Sumber: 1895750

Pendekatan Imputasi Data
Foto oleh Ron Lachu
 

Kumpulan data dunia nyata jarang sempurna dan sering disertai dengan nilai yang hilang atau informasi yang tidak lengkap. Kesalahan ini mungkin disebabkan oleh elemen manusia (survei yang diisi atau tidak diisi dengan benar) atau teknologi (sensor yang tidak berfungsi). Apa pun masalahnya, Anda sering kali kehilangan nilai atau informasi.

Tentu saja, ini menghadirkan masalah. Tanpa nilai yang hilang, seluruh kumpulan data mungkin dianggap tidak dapat digunakan. Tapi karena butuh banyak waktu, tenaga, dan (dalam banyak kasus) uang memperoleh data berkualitas tinggi, membuang data yang salah dan memulai lagi mungkin bukan opsi yang layak. Sebaliknya, kita harus menemukan cara untuk menyiasati atau mengganti nilai-nilai yang hilang ini. Di sinilah imputasi data masuk. 

Panduan ini akan membahas apa itu imputasi data serta jenis pendekatan yang didukungnya.

Meskipun kami tidak dapat mengganti data yang hilang atau rusak, ada beberapa metode yang dapat kami terapkan agar kumpulan data tetap dapat digunakan. Imputasi data adalah salah satu teknik yang paling dapat diandalkan untuk mencapai hal ini. Namun, pertama-tama kita harus mengidentifikasi jenis data apa yang hilang dan mengapa. 

Dalam statistik dan ilmu data, ada tiga jenis utama data yang hilang:

  • Hilang secara acak (MAR), di mana data yang hilang diikat ke variabel dan pada akhirnya dapat diamati atau dilacak. Dalam banyak kasus, ini dapat memberi Anda lebih banyak informasi tentang demografi atau subjek data. Misalnya, orang dengan usia tertentu dapat memutuskan untuk melewatkan pertanyaan pada survei atau menghapus sistem pelacakan dari perangkat mereka pada waktu tertentu. 
  • Hilang sepenuhnya secara acak (MCAR), Di mana data tidak ada tidak dapat diamati atau dilacak ke variabel. Hampir tidak mungkin untuk membedakan mengapa datanya hilang.
  • Data yang hilang yang tidak hilang secara acak (NMAR), di mana data yang hilang terkait dengan variabel yang diminati. Dalam kebanyakan kasus, data yang hilang ini dapat diabaikan. NMAR dapat terjadi saat pengambil survei melewatkan pertanyaan yang tidak berlaku untuk mereka.

Menangani Data Yang Hilang

Saat ini, Anda memiliki tiga opsi utama untuk menangani nilai data yang hilang:

  • penghapusan
  • Tuduhan
  • Mengabaikan

Alih-alih membuang seluruh kumpulan data, Anda dapat menggunakan apa yang dikenal sebagai penghapusan berdasarkan daftar. Ini melibatkan penghapusan catatan dengan informasi atau nilai yang hilang. Keuntungan utama penghapusan berdasarkan daftar adalah mendukung ketiga kategori data yang hilang. 

Namun, ini dapat menyebabkan hilangnya data tambahan. Disarankan agar Anda hanya menggunakan penghapusan secara listwise dalam kasus di mana ada lebih banyak nilai yang hilang (diamati) daripada nilai sekarang (diamati), terutama karena tidak ada cukup data untuk menyimpulkan atau menggantinya. 

Jika data yang hilang yang diamati tidak penting (dapat diabaikan) dan hanya beberapa nilai yang hilang, Anda dapat mengabaikannya dan bekerja dengan apa yang Anda miliki. Namun, ini tidak selalu memungkinkan. Imputasi data menawarkan solusi ketiga dan berpotensi lebih layak. 

Imputasi data melibatkan penggantian nilai yang tidak ada sehingga kumpulan data masih dapat digunakan. Ada dua kategori pendekatan imputasi data:

  • Tunggal
  • kelipatan

Mean imputasi (MI) adalah salah satu bentuk imputasi data tunggal yang paling terkenal.

Imputasi Rata-Rata (MI)

MI adalah bentuk imputasi sederhana. Ini melibatkan penghitungan rata-rata dari nilai yang diamati dan menggunakan hasilnya untuk menyimpulkan nilai yang hilang. Sayangnya, cara ini terbukti tidak efektif. Ini dapat menyebabkan banyak perkiraan yang bias, bahkan ketika data hilang sepenuhnya secara acak. Selain itu, "akurasi" estimasi bergantung pada jumlah nilai yang hilang. 

Misalnya, jika ada sejumlah besar nilai observasi yang hilang, menggunakan imputasi rata-rata dapat menyebabkan penilaian yang terlalu rendah. Jadi, lebih cocok untuk set data dan variabel dengan hanya beberapa nilai yang hilang. 

Penggantian Manual

Dalam situasi ini, operator dapat menggunakan pengetahuan sebelumnya tentang nilai kumpulan data untuk mengganti nilai yang hilang. Ini adalah metode imputasi tunggal yang bergantung pada memori atau pengetahuan operator dan kadang-kadang disebut sebagai pengetahuan sebelumnya tentang angka ideal. Akurasi bergantung pada kemampuan operator untuk memanggil kembali nilai, jadi metode ini mungkin lebih cocok untuk kumpulan data dengan hanya sedikit nilai yang hilang.

K-Tetangga Terdekat (K-NN)

K-nearest neighbor adalah teknik yang terkenal digunakan dalam pembelajaran mesin untuk mengatasi masalah regresi dan klasifikasi. Ia menggunakan rata-rata dari nilai data yang hilang dari nilai data tetangga yang hilang untuk menghitung dan menghitungnya. Itu metode K-NN jauh lebih efektif daripada imputasi rata-rata sederhana dan ideal untuk nilai MCAR dan MAR. 

Substitusi

Pergantian melibatkan menemukan individu atau subjek baru untuk survei atau tes. Ini harus menjadi subjek yang tidak dipilih dalam sampel asli.

Imputasi Regresi

Regresi mencoba untuk menentukan kekuatan variabel dependen (biasanya dispesifikasikan sebagai Y) terhadap kumpulan variabel independen (biasanya dilambangkan sebagai X). Regresi linier adalah bentuk regresi yang paling terkenal. Ini menggunakan garis paling cocok untuk memprediksi atau menentukan nilai yang hilang. Akibatnya, ini adalah metode terbaik untuk merepresentasikan data secara visual melalui model regresi.

Ketika regresi linier adalah bentuk regresi deterministik di mana hubungan yang tepat antara nilai yang hilang dan nilai sekarang ditetapkan, nilai yang hilang diganti dengan prediksi model regresi 100%. Namun, ada batasan untuk metode ini. Regresi linier deterministik seringkali dapat menghasilkan perkiraan yang terlalu tinggi dari kedekatan hubungan antara nilai-nilai.

Stochastic regresi linier mengkompensasi "ketepatan berlebihan" dari regresi deterministik dengan memperkenalkan istilah kesalahan (acak) karena dua situasi atau variabel jarang terhubung dengan sempurna. Hal ini membuat pengisian nilai yang hilang menggunakan regresi menjadi lebih tepat.

Pengambilan Sampel Dek Panas

Pendekatan ini melibatkan pemilihan nilai yang dipilih secara acak dari subjek dengan nilai lain yang mirip dengan subjek yang kehilangan nilainya. Ini mengharuskan Anda untuk mencari subjek atau individu dan kemudian mengisi data yang hilang menggunakan nilainya. 

Metode pengambilan sampel dek panas membatasi kisaran nilai yang dapat dicapai. Misalnya, jika sampel Anda dibatasi untuk kelompok usia antara 20 dan 25 tahun, hasil Anda akan selalu berada di antara angka-angka ini, sehingga meningkatkan potensi akurasi nilai penggantian. Subyek/individu untuk metode imputasi ini dipilih secara acak.

Pengambilan Sampel Dek Dingin

Metode ini melibatkan pencarian individu/subjek yang memiliki nilai serupa atau identik untuk semua variabel/parameter lain dalam kumpulan data. Misalnya, subjek mungkin memiliki tinggi, latar belakang budaya, dan usia yang sama dengan subjek yang nilainya hilang. Ini berbeda dari pengambilan sampel dek panas karena subjek dipilih dan digunakan kembali secara sistematis. 

Meskipun ada banyak pilihan dan teknik untuk menangani data yang hilang, pencegahan selalu lebih baik daripada mengobati. Peneliti harus menerapkan secara ketat merencanakan percobaan dan studi. Studi harus memiliki pernyataan misi atau tujuan yang jelas. 

Seringkali, peneliti terlalu memperumit studi atau gagal membuat rencana terhadap hambatan, yang mengakibatkan hilangnya atau tidak cukupnya data. Itu selalu yang terbaik untuk menyederhanakan desain studi sambil menempatkan fokus yang tepat pada pengumpulan data. 

Kumpulkan hanya data yang Anda butuhkan untuk memenuhi tujuan penelitian dan tidak lebih. Anda juga harus memastikan bahwa semua instrumen dan sensor yang terlibat dalam penelitian atau eksperimen berfungsi penuh setiap saat. Pertimbangkan untuk membuat cadangan data/respons Anda secara teratur selama studi berlangsung. 

Data yang hilang adalah kejadian umum. Bahkan jika Anda menerapkan praktik terbaik, Anda mungkin masih mengalami data yang tidak lengkap. Untungnya, ada cara untuk mengatasi masalah ini setelah fakta.   

 
 
Nahla Davies adalah pengembang perangkat lunak dan penulis teknologi. Sebelum mengabdikan pekerjaannya penuh waktu untuk penulisan teknis, dia berhasil — di antara hal-hal menarik lainnya — untuk melayani sebagai programmer utama di sebuah organisasi branding pengalaman Inc. 5,000 yang kliennya termasuk Samsung, Time Warner, Netflix, dan Sony.
 

Stempel Waktu:

Lebih dari KDnugget