ComenzarEmpieza gratis

Importancia de variables

Ya sabes que los árboles ensacados (bagging) son un modelo en ensamblado que supera el problema de la varianza de los árboles de decisión. Ahora has aprendido que el algoritmo de random forest mejora esto aún más usando solo un subconjunto aleatorio de las variables en cada árbol. Esto reduce todavía más la correlación dentro del ensamblado y mejora su capacidad predictiva.

En este ejercicio, vas a construir tú mismo un random forest y a representar la importancia de los predictores con el paquete vip. Los datos de entrenamiento, customers_train, ya están precargados en tu espacio de trabajo.

Este ejercicio forma parte del curso

Machine Learning con modelos basados en árboles en R

Ver curso

Instrucciones del ejercicio

  • Crea spec, la especificación de un modelo de clasificación random forest usando el motor "ranger" y la importancia de variables "impurity".
  • Crea model ajustando el tibble customers_train a spec, usando still_customer como variable de salida y el resto de columnas como variables predictoras.
  • Representa la importancia de variables con la función vip() del paquete vip (que no está precargado).

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Specify a random forest
spec <- ___ %>%
	set_mode("classification") %>%
    set_engine(___, importance = ___)

# Train the forest
model <- spec %>%
    fit(___,
        ___)

# Plot the variable importance
vip::___(model)
Editar y ejecutar código