Veri Takdirine Yaklaşımlar

Veri Takdirine Yaklaşımlar

Kaynak Düğüm: 1895750

Veri Takdirine Yaklaşımlar
Fotoğraf Ron Gülüşü
 

Gerçek dünyadaki veri kümeleri nadiren mükemmel olur ve çoğunlukla eksik değerler veya eksik bilgilerle birlikte gelir. Bu hatalar insan unsurundan (yanlış doldurulmuş veya doldurulmamış anketler) veya teknolojiden (arızalı sensörler) kaynaklanabilir. Durum ne olursa olsun, çoğu zaman eksik değerler veya bilgilerle baş başa kalırsınız.

Elbette bu bir sorun teşkil ediyor. Eksik değerler olmadan veri setinin tamamı kullanılamaz kabul edilebilir. Ancak önemli ölçüde zaman, çaba ve (çoğu durumda) para gerektirdiğinden yüksek kaliteli veriler elde edinyanlış verilerin atılması ve yeniden başlatılması uygun seçenekler olmayabilir. Bunun yerine, bu eksik değerleri düzeltmenin veya değiştirmenin bir yolunu bulmalıyız. Veri aktarımının devreye girdiği yer burasıdır. 

Bu kılavuzda veri atamanın ne olduğu ve desteklediği yaklaşım türleri tartışılacaktır.

Eksik veya bozuk verileri değiştiremesek de veri setinin hâlâ kullanılabilir olmasını sağlamak için kullanabileceğimiz yöntemler vardır. Veri atama bunu başarmak için en güvenilir tekniklerden biridir. Ancak öncelikle hangi tür verinin eksik olduğunu ve nedenini belirlememiz gerekir. 

İstatistik ve veri biliminde üç ana eksik veri türü vardır:

  • Rastgele kayıp (MAR)Eksik verilerin bir değişkene bağlandığı ve sonuçta gözlemlenebildiği veya izlenebildiği yer. Çoğu durumda bu size demografik bilgiler veya veri konuları hakkında daha fazla bilgi sağlayabilir. Örneğin belirli bir yaştaki kişiler belirli zamanlarda bir anketteki soruyu atlamaya veya takip sistemlerini cihazlarından kaldırmaya karar verebilir. 
  • Tamamen rastgele kayıp (MCAR), Burada kayıp veri bir değişken gözlemlenemez veya izlenemez. Verilerin neden eksik olduğunu anlamak neredeyse imkansızdır.
  • Rastgele eksik olmayan eksik veriler (NMAR)Eksik verilerin ilgi duyulan bir değişkene bağlandığı yer. Çoğu durumda bu eksik veriler göz ardı edilebilir. NMAR, ankete katılan kişinin kendisi için geçerli olmayan bir soruyu atlaması sonucu ortaya çıkabilir.

Eksik Veri ile Başa Çıkmak

Şu anda eksik veri değerleriyle başa çıkmak için üç ana seçeneğiniz var:

  • silme
  • Atama
  • ihmal

Veri kümesinin tamamını imha etmek yerine liste bazında silme olarak bilinen yöntemi kullanabilirsiniz. Bu, eksik bilgi veya değerlere sahip kayıtların silinmesini içerir. Liste bazında silmenin temel avantajı, eksik verilerin üç kategorisinin tamamını desteklemesidir. 

Ancak bu, ek veri kaybına neden olabilir. Yalnızca kullanmanız önerilir liste bazında silme mevcut (gözlenen) değerlerden daha fazla sayıda eksik (gözlenen) değerin olduğu durumlarda, bunun temel nedeni, bunları çıkarsamaya veya değiştirmeye yetecek kadar veri olmamasıdır. 

Gözlemlenen eksik veriler önemli değilse (göz ardı edilebilir) ve yalnızca birkaç değer eksikse, bunları göz ardı edebilir ve sahip olduklarınızla çalışabilirsiniz. Ancak bu her zaman mümkün değildir. Veri atama üçüncü ve potansiyel olarak daha uygun bir çözüm sunar. 

Veri atama, veri setlerinin hala kullanılabilir olması için eksik değerlerin değiştirilmesini içerir. Veri atama yaklaşımlarının iki kategorisi vardır:

  • Tek
  • çoklu

Ortalama atfetme (MI), tek veri atfetmenin en ünlü biçimlerinden biridir.

Ortalama Atama (MI)

MI basit bir yükleme şeklidir. Bu, gözlemlenen değerlerin ortalamasının hesaplanmasını ve sonuçların eksik değerleri çıkarmak için kullanılmasını içerir. Ne yazık ki bu yöntemin verimsiz olduğu kanıtlanmıştır. Veriler tamamen rastgele eksik olsa bile, birçok önyargılı tahmine yol açabilir. Ayrıca tahminlerin “doğruluğu” eksik değerlerin sayısına bağlıdır. 

Örneğin, çok sayıda eksik gözlemlenen değer varsa, ortalama isnadını kullanma değerin küçümsenmesine neden olabilir. Bu nedenle, yalnızca birkaç eksik değeri olan veri kümeleri ve değişkenler için daha uygundur. 

Manuel Değiştirme

Bu durumda bir operatör, eksik değerleri değiştirmek için veri setinin değerlerine ilişkin ön bilgiyi kullanabilir. Operatörün hafızasına veya bilgisine dayanan tek bir atama yöntemidir ve bazen ideal sayının ön bilgisi olarak da anılır. Doğruluk, operatörün değerleri geri çağırma becerisine bağlıdır; dolayısıyla bu yöntem, yalnızca birkaç eksik değeri olan veri kümeleri için daha uygun olabilir.

K-En Yakın Komşular (K-NN)

K-en yakın komşu, makine öğreniminde regresyon ve sınıflandırma problemlerini çözmek için kullanılan ünlü bir tekniktir. Hesaplamak ve atamak için eksik veri değerinin komşularının eksik veri değerinin ortalamasını kullanır. K-NN yöntemi basit ortalama atamasından çok daha etkilidir ve MCAR ve MAR değerleri için idealdir. 

Ikame

Yerine koyma, yeni bir bireyin bulunmasını veya araştırma veya teste tabi tutulmasını içerir. Bu, orijinal örnekte seçilmemiş bir konu olmalıdır.

Regresyon Yüklemesi

Regresyon, bağımlı bir değişkenin (genellikle Y olarak belirtilir) gücünü bağımsız değişkenler koleksiyonuna (genellikle X olarak gösterilir) belirlemeye çalışır. Doğrusal regresyon, regresyonun en bilinen şeklidir. Eksik değeri tahmin etmek veya belirlemek için en iyi uyum çizgisini kullanır. Sonuç olarak, verileri bir regresyon modeli aracılığıyla görsel olarak temsil etmenin en iyi yöntemidir.

Doğrusal regresyon, eksik ve mevcut değerler arasında kesin bir ilişkinin kurulduğu bir deterministik regresyon biçimi olduğunda, eksik değerler, regresyon modelinin %100 tahminiyle değiştirilir. Ancak bu yöntemin bir sınırlaması vardır. Deterministik doğrusal regresyon sıklıkla değerler arasındaki ilişkinin yakınlığının olduğundan fazla tahmin edilmesiyle sonuçlanabilir.

Stokastik doğrusal regresyon İki durum veya değişken nadiren mükemmel şekilde bağlantılı olduğundan, (rastgele) bir hata terimi ekleyerek deterministik regresyonun "aşırı kesinliğini" telafi eder. Bu, eksik değerlerin regresyon kullanılarak doldurulmasını daha uygun hale getirir.

Sıcak Güverte Numune Alma

Bu yaklaşım, değeri eksik olan konuya benzer diğer değerlere sahip bir denekten rastgele seçilen bir değerin seçilmesini içerir. Konuları veya bireyleri aramanızı ve ardından eksik verileri değerlerini kullanarak doldurmanızı gerektirir. 

Sıcak güverte örnekleme yöntemi, ulaşılabilir değerlerin aralığını sınırlar. Örneğin, örneğiniz 20 ila 25 yaş grubuyla sınırlıysa sonucunuz her zaman bu sayıların arasında olacaktır ve bu da değiştirme değerinin potansiyel doğruluğunu artırır. Bu isnat yöntemi için denekler/bireyler rastgele seçilir.

Soğuk Güverte Numune Alma

Bu yöntem, veri setindeki diğer tüm değişkenler/parametreler için benzer veya aynı değerlere sahip bir bireyin/deneğin aranmasını içerir. Örneğin özne, değerleri eksik olan özneyle aynı boya, kültürel geçmişe ve yaşa sahip olabilir. Konuların sistematik olarak seçilmesi ve yeniden kullanılması açısından sıcak güverte örneklemesinden farklıdır. 

Eksik verilerle başa çıkmak için birçok seçenek ve teknik olsa da, önlemek her zaman tedavi etmekten daha iyidir. Araştırmacılar sıkı uygulamalı deneyler için planlama ve çalışmalar. Çalışmanın akılda açık bir misyon beyanı veya hedefi olmalıdır. 

Çoğunlukla araştırmacılar bir çalışmayı aşırı karmaşık hale getirir veya engellere karşı plan yapmada başarısız olurlar, bu da eksik veya yetersiz veriyle sonuçlanır. Veri toplamaya tam olarak odaklanırken çalışmanın tasarımını basitleştirmek her zaman en iyisidir. 

Yalnızca çalışmanın hedeflerine ulaşmak için ihtiyacınız olan verileri toplayın, daha fazlasını değil. Ayrıca çalışmaya veya deneylere dahil olan tüm cihaz ve sensörlerin her zaman tam olarak çalışır durumda olduğundan emin olmalısınız. Çalışma ilerledikçe verilerinizin/yanıtlarınızın düzenli yedeklerini oluşturmayı düşünün. 

Eksik veriler sık ​​karşılaşılan bir durumdur. En iyi uygulamaları uygulasanız bile eksik verilerden muzdarip olabilirsiniz. Neyse ki, olay gerçekleştikten sonra bu sorunu çözmenin yolları var.   

 
 
Nahla Davies bir yazılım geliştiricisi ve teknoloji yazarıdır. Çalışmasını tam zamanlı olarak teknik yazıya adamadan önce, diğer ilgi çekici şeylerin yanı sıra, müşterileri arasında Samsung, Time Warner, Netflix ve Sony'nin de bulunduğu bir Inc. 5,000 deneyimsel marka organizasyonunda baş programcı olarak hizmet etmeyi başardı.
 

Zaman Damgası:

Den fazla KDNuggets