Crea una receta para alta correlación
Una vez que hayas identificado las características muy correlacionadas, en lugar de eliminarlas manualmente, puedes usar el paso de receta step_corr() en tidymodels. step_corr() no elimina todas las características que están correlacionadas con otras. Intenta eliminar la menor cantidad posible. Conceptualmente, como viste en el ejercicio de opción múltiple, elimina la característica que tiene más solapamiento con cualquier combinación de otras características. La idea es que las otras características contienen la misma información, por lo que la información solapada de la característica eliminada sigue representada en esas otras características.
Los paquetes tidyverse y tidymodels ya están cargados.
Este ejercicio forma parte del curso
Reducción de la dimensionalidad en R
Instrucciones del ejercicio
- Crea una receta que use
step_corr()con un umbral de 0.7, aplicando el paso solo a los predictores numéricos. - Aplica la receta a
house_sales_dfy guarda los datos filtrados enfiltered_house_sales_df. - Usa
tidy()para identificar la o las columnas que el filtrostep_corr()eliminó.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a recipe using step_corr to remove numeric predictors correlated > 0.7
corr_recipe <-
___(price ~ ., data = ___) %>%
___(___, ___ = ___) %>%
___(___)
# Apply the recipe to the data
___ <-
___ %>%
___(new_data = ___)
# Identify the features that were removed
___(___, ___ = ___)