Reduce los datos usando importancias de características
Ahora que has creado un modelo de random forest completo, vas a explorar la importancia de las variables.
Aunque los modelos de random forest realizan selección de características de forma natural —pero implícita—, a menudo compensa construir un modelo reducido. Un modelo reducido se entrena más rápido, calcula predicciones más rápido y es más fácil de entender y mantener. Por supuesto, siempre hay un equilibrio entre la simplicidad del modelo y su rendimiento.
En este ejercicio, reducirás el conjunto de datos. En el siguiente, ajustarás un modelo reducido y compararás su rendimiento con el del modelo completo. Se te proporcionan rf_fit, train y test.
Los paquetes tidyverse, tidymodels y vip ya se han cargado por ti.
Este ejercicio forma parte del curso
Reducción de la dimensionalidad en R
Instrucciones del ejercicio
- Usa
vi()con el parámetrorankpara extraer las diez características más importantes. - Añade la variable objetivo a la lista de características principales.
- Aplica la máscara de características principales para reducir los conjuntos de datos.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Extract the top ten features
top_features <- ___ %>%
___(___ = ___) %>%
filter(___) %>%
pull(Variable)
# Add the target variable to the feature list
top_features <- c(___, "___")
# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)