Scoprire i predittori correlati
Le variabili predittive correlate forniscono informazioni ridondanti e possono influire negativamente sul processo di adattamento del modello. Quando due variabili sono altamente correlate, i loro valori variano linearmente tra loro e quindi forniscono la stessa informazione ai tuoi algoritmi di Machine Learning. Questo fenomeno è noto come multicollinearità.
Prima di iniziare l’addestramento del modello, è importante esplorare il tuo insieme di dati per individuare queste relazioni e rimuoverle nei passaggi di feature engineering.
In questo esercizio, esplorerai il dataset telecom_training creando una matrice di correlazione di tutte le variabili predittive numeriche.
I dati telecom_training sono già stati caricati nella tua sessione.
Questo esercizio fa parte del corso
Modellazione con tidymodels in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
telecom_training %>%
# Select numeric columns
___(___) %>%
# Calculate correlation matrix
___