Sterk gecorreleerde features identificeren

Met de gegevens in house_sales_df ga je oefenen met het identificeren van features met een hoge correlatie. Een hoge correlatie tussen features wijst op overlappende informatie en kan in modellen problemen veroorzaken, zoals multicollineariteit in regressiemodellen. Je bepaalt welke van de sterk gecorreleerde features je moet verwijderen. Een correlatiematrix helpt je om sterk gecorreleerde features te herkennen.

De pakketten tidyverse en corrr zijn voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Bekijk cursus

Oefeninstructies

Maak een correlatieplot met de correlaties als getallen op de plot.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a correlation plot of the house sales
house_sales_df %>% 
  ___() %>% 
  ___() %>% 
  ___(print_cor = ___) +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Code bewerken en uitvoeren