Birden çok değişken türüyle model tabanlı imputasyon
Koşullu dağılımdan çekim yaparak lojistik regresyon imputasyonunu uygulayan fonksiyonu yazdığın için harika iş çıkardın. Oldukça ileri düzey istatistiksel bir kod yazdın! Bu egzersizde, şimdiye kadar öğrendiğin model tabanlı imputasyon yöntemlerini birleştirerek tao verisinde farklı türde değişkenleri imputasyonla dolduracaksın.
Görevin, önceki bölümde yaptığın gibi değişkenler üzerinde yineleme yaparak iki değişkeni imputasyonla doldurmak:
is_hot:air_temp’ten türetilmiş yeni bir ikili değişken;air_temp26 derece veya üzerindeyse 1, değilse 0;humidity: zaten aşina olduğun sürekli bir değişken.
Hem daha önce öğrendiğin doğrusal regresyon fonksiyonunu hem de lojistik regresyon için kendi fonksiyonunu kullanman gerekecek. Hadi başlayalım!
Bu egzersiz
R'de Atamaya Dayalı Eksik Veri Doldurma
kursunun bir parçasıdırEgzersiz talimatları
is_hotdeğerini, başlangıçta eksik olduğu yerlerdeNAyap.is_hotdeğişkenini yalnızcasea_surface_tempyordayıcısını kullanarak lojistik regresyon ile imputasyonla doldur;impute_logreg()fonksiyonunu kullan.humiditydeğerini, başlangıçta eksik olduğu yerlerdeNAyap.humiditydeğişkeninisea_surface_tempveair_tempyordayıcılarını kullanarak doğrusal regresyon ile imputasyonla doldur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)
# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp
for (i in 1:3) {
# Set is_hot to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ ___)
# Set humidity to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}