Crea una recipe per alta correlazione
Dopo aver identificato le feature altamente correlate, invece di rimuoverle manualmente puoi usare lo step di recipe step_corr() in tidymodels. step_corr() non elimina tutte le feature che sono correlate con altre feature: cerca di rimuoverne il minor numero possibile. In pratica, come hai visto nell’esercizio a scelta multipla, rimuove la feature che ha la maggiore sovrapposizione con qualsiasi combinazione delle altre feature. L’idea è che le altre feature contengano la stessa informazione, quindi l’informazione sovrapposta della feature rimossa è comunque rappresentata in quelle rimanenti.
I pacchetti tidyverse e tidymodels sono già stati caricati per te.
Questo esercizio fa parte del corso
Riduzione della dimensionalità in R
Istruzioni dell'esercizio
- Crea una recipe che usi
step_corr()con una soglia di 0.7, applicando lo step solo ai predittori numerici. - Applica la recipe a
house_sales_dfe salva i dati filtrati infiltered_house_sales_df. - Usa
tidy()per identificare la o le colonne che il filtrostep_corr()ha rimosso.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a recipe using step_corr to remove numeric predictors correlated > 0.7
corr_recipe <-
___(price ~ ., data = ___) %>%
___(___, ___ = ___) %>%
___(___)
# Apply the recipe to the data
___ <-
___ %>%
___(new_data = ___)
# Identify the features that were removed
___(___, ___ = ___)