Importancia de variables
Ya sabes que los árboles ensacados (bagging) son un modelo en ensamblado que supera el problema de la varianza de los árboles de decisión. Ahora has aprendido que el algoritmo de random forest mejora esto aún más usando solo un subconjunto aleatorio de las variables en cada árbol. Esto reduce todavía más la correlación dentro del ensamblado y mejora su capacidad predictiva.
En este ejercicio, vas a construir tú mismo un random forest y a representar la importancia de los predictores con el paquete vip. Los datos de entrenamiento, customers_train, ya están precargados en tu espacio de trabajo.
Este ejercicio forma parte del curso
Machine Learning con modelos basados en árboles en R
Instrucciones del ejercicio
- Crea
spec, la especificación de un modelo de clasificación random forest usando el motor"ranger"y la importancia de variables"impurity". - Crea
modelajustando el tibblecustomers_trainaspec, usandostill_customercomo variable de salida y el resto de columnas como variables predictoras. - Representa la importancia de variables con la función
vip()del paquetevip(que no está precargado).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Specify a random forest
spec <- ___ %>%
set_mode("classification") %>%
set_engine(___, importance = ___)
# Train the forest
model <- spec %>%
fit(___,
___)
# Plot the variable importance
vip::___(model)