Reduksi data menggunakan importance fitur

Sekarang setelah Anda membuat model random forest lengkap, Anda akan mengeksplorasi importance fitur.

Meskipun model random forest secara alami — namun implisit — melakukan pemilihan fitur, sering kali menguntungkan untuk membangun model tereduksi. Model tereduksi berlatih lebih cepat, menghitung prediksi lebih cepat, serta lebih mudah dipahami dan dikelola. Tentu saja, selalu ada pertukaran antara kesederhanaan model dan kinerja model.

Dalam latihan ini, Anda akan mereduksi himpunan data. Pada latihan berikutnya, Anda akan memasangkan model tereduksi dan membandingkan kinerjanya dengan model penuh. rf_fit, train, dan test telah disediakan untuk Anda.

Paket tidyverse, tidymodels, dan vip telah dimuat untuk Anda.

Latihan ini merupakan bagian dari kursus

Reduksi Dimensi di R

Lihat Kursus

Instruksi latihan

Gunakan vi() dengan parameter rank untuk mengekstrak sepuluh fitur terpenting.
Tambahkan kembali variabel target ke daftar fitur teratas.
Terapkan mask fitur teratas untuk mereduksi himpunan data.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Extract the top ten features
top_features <- ___ %>% 
  ___(___ = ___) %>% 
  filter(___) %>% 
  pull(Variable)

# Add the target variable to the feature list
top_features <- c(___, "___")

# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)

Edit dan Jalankan Kode