Reduksi data menggunakan importance fitur
Sekarang setelah Anda membuat model random forest lengkap, Anda akan mengeksplorasi importance fitur.
Meskipun model random forest secara alami — namun implisit — melakukan pemilihan fitur, sering kali menguntungkan untuk membangun model tereduksi. Model tereduksi berlatih lebih cepat, menghitung prediksi lebih cepat, serta lebih mudah dipahami dan dikelola. Tentu saja, selalu ada pertukaran antara kesederhanaan model dan kinerja model.
Dalam latihan ini, Anda akan mereduksi himpunan data. Pada latihan berikutnya, Anda akan memasangkan model tereduksi dan membandingkan kinerjanya dengan model penuh. rf_fit, train, dan test telah disediakan untuk Anda.
Paket tidyverse, tidymodels, dan vip telah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Reduksi Dimensi di R
Petunjuk latihan
- Gunakan
vi()dengan parameterrankuntuk mengekstrak sepuluh fitur terpenting. - Tambahkan kembali variabel target ke daftar fitur teratas.
- Terapkan mask fitur teratas untuk mereduksi himpunan data.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Extract the top ten features
top_features <- ___ %>%
___(___ = ___) %>%
filter(___) %>%
pull(Variable)
# Add the target variable to the feature list
top_features <- c(___, "___")
# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)