Aan de slagGa gratis aan de slag

Gecorreleerde voorspellers ontdekken

Gecorreleerde voorspellende variabelen leveren dubbele informatie op en kunnen het trainen van je model negatief beïnvloeden. Als twee variabelen sterk gecorreleerd zijn, veranderen hun waarden lineair met elkaar en leveren ze dus dezelfde informatie aan je Machine Learning-algoritmen. Dit verschijnsel heet multicollineariteit.

Voordat je begint met het trainen van je model, is het belangrijk om je gegevensset te verkennen om deze relaties te ontdekken en ze te verwijderen tijdens je feature engineering-stappen.

In deze oefening verken je de gegevensset telecom_training door een correlatiematrix te maken van alle numerieke voorspellende variabelen.

De data telecom_training is al in je sessie geladen.

Deze oefening maakt deel uit van de cursus

Modelleren met tidymodels in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

telecom_training %>% 
  # Select numeric columns
  ___(___) %>% 
  # Calculate correlation matrix
  ___
Code bewerken en uitvoeren