Mutual information-features
De data frame credit_df bevat een aantal continue features. Wanneer twee continue features gecorreleerd zijn, bevatten ze dezelfde informatie — dit heet mutual information. Sterk gecorreleerde features zijn niet alleen dubbelop; ze kunnen ook problemen veroorzaken bij het modelleren. In regressie kan een hoge correlatie tussen features (oftewel multicollineariteit) bijvoorbeeld tot onzinnige resultaten leiden. Om gevoel te krijgen voor mutual information maak je een correlatieplot om features met mutual information te identificeren.
De pakketten tidyverse en corrr zijn al voor je geladen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in R
Oefeninstructies
- Gebruik
correlate()enrplot()om een correlatieplot te maken van de numerieke features vancredit_df.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a correlation plot
___ %>%
select(where(is.numeric)) %>%
___() %>%
shave() %>%
___(print_cor = TRUE) +
theme(axis.text.x = element_text(angle = 90, hjust = 1))