Aan de slagGa gratis aan de slag

Sterk gecorreleerde features identificeren

Met de gegevens in house_sales_df ga je oefenen met het identificeren van features met een hoge correlatie. Een hoge correlatie tussen features wijst op overlappende informatie en kan in modellen problemen veroorzaken, zoals multicollineariteit in regressiemodellen. Je bepaalt welke van de sterk gecorreleerde features je moet verwijderen. Een correlatiematrix helpt je om sterk gecorreleerde features te herkennen.

De pakketten tidyverse en corrr zijn voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Cursus bekijken

Oefeninstructies

  • Maak een correlatieplot met de correlaties als getallen op de plot.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a correlation plot of the house sales
house_sales_df %>% 
  ___() %>% 
  ___() %>% 
  ___(print_cor = ___) +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))
Code bewerken en uitvoeren