Crea una receta de baja varianza
Los paquetes de tidymodels ofrecen una forma mejor de filtrar características con varianza nula o casi nula mediante sus funciones step_zv() y step_nzv(), respectivamente. Estos pasos de la receta identifican características de baja varianza examinando el número de valores únicos y la proporción de la frecuencia de los valores más comunes en cada característica. Este enfoque es más robusto que el simple umbral de varianza que usamos antes.
Además, usarás el paso de receta step_scale() para normalizar la varianza de las características. Recuerda que siempre es buena idea normalizar los datos para que las varianzas entre características sean comparables.
Tienes disponible house_sales_df para usar. La variable objetivo es price. Los paquetes tidyverse y tidymodels también se han cargado por ti.
Este ejercicio forma parte del curso
Reducción de la dimensionalidad en R
Instrucciones del ejercicio
- Define una receta para un filtro de baja varianza y prepárala usando
house_sales_df. - Aplica la receta a
house_sales_dfy guarda los datos filtrados enfiltered_house_sales_df. - Muestra las características que la receta filtró en el paso
step_nzv().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Prepare recipe
low_variance_recipe <- recipe(___ ~ ___, ___ = ___) %>%
step_zv(___) %>%
___(___) %>%
___(___) %>%
prep()
# Apply recipe
filtered_house_sales_df <- ___(___, new_data = ___)
# View list of features removed by the near-zero variance step
tidy(___, number = ___)