Imputasi dengan random forests
Pendekatan Machine Learning untuk imputasi bisa lebih akurat dan lebih mudah diterapkan dibandingkan model statistik tradisional. Pertama, Anda tidak perlu menentukan hubungan antarkomponen variabel terlebih dahulu. Selain itu, model Machine Learning seperti random forests mampu menemukan hubungan yang sangat kompleks dan nonlinier, lalu memanfaatkannya untuk memprediksi nilai yang hilang.
Pada latihan ini, Anda akan berkenalan dengan paket missForest, yang membangun random forest terpisah untuk memprediksi nilai yang hilang pada setiap variabel, satu per satu. Anda akan memanggil fungsi imputasi pada data film biografi, biopics, yang sudah Anda gunakan sebelumnya dalam kursus ini, lalu mengekstrak data yang telah terisi serta estimasi galat imputasinya.
Mari “menanam” beberapa random forest!
Latihan ini adalah bagian dari kursus
Menangani Data Hilang dengan Imputasi di R
Petunjuk latihan
- Muat paket
missForest. - Gunakan
missForest()untuk mengimputasi nilai yang hilang pada databiopics; simpan hasilnya keimp_res. - Ekstrak himpunan data hasil imputasi dari
imp_res, simpan sebagaiimp_data, dan periksa apakah jumlah nilai hilangnya benar-benar nol. - Ekstrak estimasi galat imputasi dari
imp_res, simpan sebagaiimp_err, dan cetak ke konsol.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load the missForest package
___
# Impute biopics data using missForest
imp_res <- ___(___)
# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))
# Extract and print imputation errors
imp_err <- imp_res$___
print(___)