BaşlayınÜcretsiz Başlayın

kNN ipuçları ve püfler II: değişkenleri sıralama

k-Nearest Neighbors algoritması, verideki değişkenler üzerinde dolaşarak onları doldururken, gözlemler arası mesafeleri diğer değişkenleri kullanarak hesaplar; bu değişkenlerin bir kısmı önceki adımlarda zaten tamamlanmıştır. Bu, eğer veride daha önce yer alan değişkenlerde çok sayıda eksik değer varsa, takip eden mesafe hesaplamasının büyük ölçüde tamamlanmış değerlere dayanacağı anlamına gelir. Bu da mesafe hesabına gürültü katar.

Bu nedenle, kNN ile tamamlama yapmadan önce değişkenleri eksik değer sayısına göre artan şekilde sıralamak iyi bir uygulamadır. Böylece her mesafe hesabı olabildiğince çok gözlenen veriye ve olabildiğince az tamamlanmış değere dayanır.

Hadi bunu tao verisi üzerinde deneyelim!

Bu egzersiz

R'de Atamaya Dayalı Eksik Veri Doldurma

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • İlk aşamada, tao içindeki her sütundaki eksik değerlerin sayısını hesapla.
  • Ardından, değişkenleri eksik değer sayısına göre artan şekilde sırala, adlarını çıkar ve sonucu vars_by_NAs değişkenine ata.
  • select() kullanarak tao değişkenlerini vars_by_NAs içinde kayıtlı sıraya göre yeniden düzenle.
  • Yeniden sıralanmış veri üzerinde k-Nearest Neighbors tamamlama yap ve sonucu tao_imp değişkenine ata.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Get tao variable names sorted by number of NAs
vars_by_NAs <- tao %>%
  ___ %>%
  colSums() %>%
  sort(decreasing = ___) %>% 
  names()

# Sort tao variables and feed it to kNN imputation
tao_imp <- tao %>% 
  select(___) %>% 
  ___()

tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	marginplot(delimiter = "imp")
Kodu Düzenle ve Çalıştır