BaşlayınÜcretsiz Başlayın

Hot-deck ipuçları ve püf noktaları I: alanlar içinde imputasyon

Hot-deck imputasyon değişkenler arasındaki ilişkileri bozduğunda işe yarayabilecek bir yöntem, alanlar (domains) içinde imputasyon yapmaktır. Bunun anlamı şu: Eğer imputasyon yapılacak değişken başka bir kategorik değişkenle ilişkiliyse, hot-deck’i bu kategorilerin her biri için ayrı ayrı çalıştırabilirsin.

Örneğin, küresel ısınma nedeniyle ortalama sıcaklıklar artarken, hava sıcaklığının zamana bağlı olmasını beklersin. tao verisinde mevcut zaman göstergesi bir kategorik değişken olan year. Önce çalışılan iki yılda ortalama hava sıcaklığının farklı olup olmadığını kontrol edelim, ardından yıl alanları içinde hot-deck uygulayalım. Son olarak, imputasyon performansını değerlendirmek için tekrar margin grafiğini çizeceksin.

Bu egzersiz

R'de Atamaya Dayalı Eksik Veri Doldurma

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Her yıl için air_temp ortalamasını hesapla; sonucu average_air_temp olarak adlandır ve ortalama hesaplamasında NA değerlerini dışarıda bırak.
  • tao verisinde year alanları içinde hot-deck imputasyon kullanarak air_temp içindeki eksik değerleri imputasyon yap ve sonucu tao_imp değişkenine ata.
  • air_temp ile sea_surface_temp için bir margin grafiği oluştur; çizim fonksiyonuna geçeceğin değişkenler arasında air_temp_imp’i eklemeyi unutma.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Calculate mean air_temp per year
tao %>% 
	group_by(___) %>% 
	summarize(average_air_temp = mean(___, na.rm = ___))

# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(___, ___, ___) %>% 
	marginplot(___ = ___)
Kodu Düzenle ve Çalıştır