Hot-deck ipuçları ve püf noktaları I: alanlar içinde imputasyon
Hot-deck imputasyon değişkenler arasındaki ilişkileri bozduğunda işe yarayabilecek bir yöntem, alanlar (domains) içinde imputasyon yapmaktır. Bunun anlamı şu: Eğer imputasyon yapılacak değişken başka bir kategorik değişkenle ilişkiliyse, hot-deck’i bu kategorilerin her biri için ayrı ayrı çalıştırabilirsin.
Örneğin, küresel ısınma nedeniyle ortalama sıcaklıklar artarken, hava sıcaklığının zamana bağlı olmasını beklersin. tao verisinde mevcut zaman göstergesi bir kategorik değişken olan year. Önce çalışılan iki yılda ortalama hava sıcaklığının farklı olup olmadığını kontrol edelim, ardından yıl alanları içinde hot-deck uygulayalım. Son olarak, imputasyon performansını değerlendirmek için tekrar margin grafiğini çizeceksin.
Bu egzersiz
R'de Atamaya Dayalı Eksik Veri Doldurma
kursunun bir parçasıdırEgzersiz talimatları
- Her yıl için
air_temportalamasını hesapla; sonucuaverage_air_tempolarak adlandır ve ortalama hesaplamasındaNAdeğerlerini dışarıda bırak. taoverisindeyearalanları içinde hot-deck imputasyon kullanarakair_tempiçindeki eksik değerleri imputasyon yap ve sonucutao_impdeğişkenine ata.air_tempilesea_surface_tempiçin bir margin grafiği oluştur; çizim fonksiyonuna geçeceğin değişkenler arasındaair_temp_imp’i eklemeyi unutma.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Calculate mean air_temp per year
tao %>%
group_by(___) %>%
summarize(average_air_temp = mean(___, na.rm = ___))
# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(___, ___, ___) %>%
marginplot(___ = ___)