Rastgele ormanlarla imputasyon
İmputasyona yönelik bir Machine Learning yaklaşımı, geleneksel istatistiksel modellere kıyasla hem daha doğru hem de uygulaması daha kolay olabilir. Öncelikle, değişkenler arasındaki ilişkileri önceden belirtmeni gerektirmez. Ayrıca, rastgele ormanlar gibi Machine Learning modelleri son derece karmaşık, doğrusal olmayan ilişkileri keşfedip bunlardan yararlanarak eksik değerleri tahmin edebilir.
Bu egzersizde, her bir değişken için tek tek eksik değerleri tahmin etmek üzere ayrı bir rastgele orman kuran missForest paketiyle tanışacaksın. Kursun önceki kısımlarında çalıştığın biyografik filmler verisi biopics üzerinde bu imputasyon fonksiyonunu çağıracak, ardından hem doldurulmuş veriyi hem de tahmini imputasyon hatalarını çıkaracaksın.
Haydi birkaç rastgele orman dikelim!
Bu egzersiz
R'de Atamaya Dayalı Eksik Veri Doldurma
kursunun bir parçasıdırEgzersiz talimatları
missForestpaketini yükle.missForest()ilebiopicsverisindeki eksik değerleri imputasyon yap; sonucuimp_resdeğişkenine ata.imp_resiçinden doldurulmuş veri kümesini çıkar,imp_datadeğişkenine ata ve eksik değer sayısının gerçekten sıfır olup olmadığını kontrol et.imp_resiçinden tahmini imputasyon hatasını çıkar,imp_errdeğişkenine ata ve konsola yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load the missForest package
___
# Impute biopics data using missForest
imp_res <- ___(___)
# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))
# Extract and print imputation errors
imp_err <- imp_res$___
print(___)