Kepentingan variabel
Anda sudah mengetahui bahwa bagged trees adalah model ensemble yang mengatasi masalah varians pada decision tree. Kini Anda mempelajari bahwa algoritma random forest menyempurnakannya dengan hanya menggunakan subset fitur acak pada setiap pohon. Hal ini makin mendekorelasi ensemble dan meningkatkan kinerja prediktifnya.
Dalam latihan ini, Anda akan membangun random forest sendiri dan membuat plot kepentingan prediktor menggunakan paket vip. Data pelatihan, customers_train, sudah dimuat di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Machine Learning dengan Model Berbasis Pohon di R
Petunjuk latihan
- Buat
spec, spesifikasi model klasifikasi random forest menggunakan engine"ranger"dan kepentingan variabel"impurity". - Buat
modeldengan memfitting tibblecustomers_trainkespecmenggunakanstill_customersebagai outcome dan semua kolom lainnya sebagai variabel prediktor. - Plot kepentingan variabel menggunakan fungsi
vip()dari paketvip(yang belum dimuat sebelumnya).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Specify a random forest
spec <- ___ %>%
set_mode("classification") %>%
set_engine(___, importance = ___)
# Train the forest
model <- spec %>%
fit(___,
___)
# Plot the variable importance
vip::___(model)