Reduce los datos usando importancias de características

Ahora que has creado un modelo de random forest completo, vas a explorar la importancia de las variables.

Aunque los modelos de random forest realizan selección de características de forma natural —pero implícita—, a menudo compensa construir un modelo reducido. Un modelo reducido se entrena más rápido, calcula predicciones más rápido y es más fácil de entender y mantener. Por supuesto, siempre hay un equilibrio entre la simplicidad del modelo y su rendimiento.

En este ejercicio, reducirás el conjunto de datos. En el siguiente, ajustarás un modelo reducido y compararás su rendimiento con el del modelo completo. Se te proporcionan rf_fit, train y test.

Los paquetes tidyverse, tidymodels y vip ya se han cargado por ti.

Este ejercicio forma parte del curso

Reducción de la dimensionalidad en R

Ver curso

Instrucciones del ejercicio

Usa vi() con el parámetro rank para extraer las diez características más importantes.
Añade la variable objetivo a la lista de características principales.
Aplica la máscara de características principales para reducir los conjuntos de datos.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Extract the top ten features
top_features <- ___ %>% 
  ___(___ = ___) %>% 
  filter(___) %>% 
  pull(Variable)

# Add the target variable to the feature list
top_features <- c(___, "___")

# Reduce and print the data sets
train_reduced <- train[___]
test_reduced <- ___[___]
train_reduced %>% head(5)
test_reduced %>% head(5)

Editar y ejecutar código