Gunakan imputasi KNN
Pada latihan sebelumnya, Anda menggunakan imputasi median untuk mengisi nilai yang hilang pada himpunan data kanker payudara, tetapi itu bukan satu-satunya metode untuk menangani data hilang.
Alternatif dari imputasi median adalah imputasi k-nearest neighbors (KNN). Ini adalah bentuk imputasi yang lebih maju, di mana nilai yang hilang digantikan dengan nilai dari baris lain yang mirip dengan baris saat ini. Walaupun penerapannya dalam praktik jauh lebih rumit dibandingkan imputasi median sederhana, eksplorasinya sangat mudah di caret menggunakan argumen preProcess pada train(). Anda cukup menggunakan preProcess = "knnImpute" untuk mengubah metode imputasi yang digunakan sebelum pemodelan.
Latihan ini adalah bagian dari kursus
Machine Learning dengan caret di R
Petunjuk latihan
breast_cancer_x dan breast_cancer_y telah dimuat di ruang kerja Anda.
- Gunakan fungsi
train()untuk menyesuaikan modelglmbernamaknn_modelpada himpunan data kanker payudara. - Gunakan imputasi KNN untuk menangani nilai yang hilang.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Apply KNN imputation: knn_model
knn_model <- train(
x = ___,
y = ___,
method = ___,
trControl = myControl,
preProcess = ___
)
# Print knn_model to console