Sterk gecorreleerde features identificeren
Met de gegevens in house_sales_df ga je oefenen met het identificeren van features met een hoge correlatie. Een hoge correlatie tussen features wijst op overlappende informatie en kan in modellen problemen veroorzaken, zoals multicollineariteit in regressiemodellen. Je bepaalt welke van de sterk gecorreleerde features je moet verwijderen. Een correlatiematrix helpt je om sterk gecorreleerde features te herkennen.
De pakketten tidyverse en corrr zijn voor je geladen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in R
Oefeninstructies
- Maak een correlatieplot met de correlaties als getallen op de plot.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a correlation plot of the house sales
house_sales_df %>%
___() %>%
___() %>%
___(print_cor = ___) +
theme(axis.text.x = element_text(angle = 90, hjust = 1))