MulaiMulai sekarang secara gratis

Imputasi dengan random forests

Pendekatan Machine Learning untuk imputasi bisa lebih akurat dan lebih mudah diterapkan dibandingkan model statistik tradisional. Pertama, Anda tidak perlu menentukan hubungan antarkomponen variabel terlebih dahulu. Selain itu, model Machine Learning seperti random forests mampu menemukan hubungan yang sangat kompleks dan nonlinier, lalu memanfaatkannya untuk memprediksi nilai yang hilang.

Pada latihan ini, Anda akan berkenalan dengan paket missForest, yang membangun random forest terpisah untuk memprediksi nilai yang hilang pada setiap variabel, satu per satu. Anda akan memanggil fungsi imputasi pada data film biografi, biopics, yang sudah Anda gunakan sebelumnya dalam kursus ini, lalu mengekstrak data yang telah terisi serta estimasi galat imputasinya.

Mari “menanam” beberapa random forest!

Latihan ini adalah bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Lihat Kursus

Petunjuk latihan

  • Muat paket missForest.
  • Gunakan missForest() untuk mengimputasi nilai yang hilang pada data biopics; simpan hasilnya ke imp_res.
  • Ekstrak himpunan data hasil imputasi dari imp_res, simpan sebagai imp_data, dan periksa apakah jumlah nilai hilangnya benar-benar nol.
  • Ekstrak estimasi galat imputasi dari imp_res, simpan sebagai imp_err, dan cetak ke konsol.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load the missForest package
___

# Impute biopics data using missForest
imp_res <- ___(___)

# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))

# Extract and print imputation errors
imp_err <- imp_res$___
print(___)
Edit dan Jalankan Kode