IniziaInizia gratis

Crea una recipe per alta correlazione

Dopo aver identificato le feature altamente correlate, invece di rimuoverle manualmente puoi usare lo step di recipe step_corr() in tidymodels. step_corr() non elimina tutte le feature che sono correlate con altre feature: cerca di rimuoverne il minor numero possibile. In pratica, come hai visto nell’esercizio a scelta multipla, rimuove la feature che ha la maggiore sovrapposizione con qualsiasi combinazione delle altre feature. L’idea è che le altre feature contengano la stessa informazione, quindi l’informazione sovrapposta della feature rimossa è comunque rappresentata in quelle rimanenti.

I pacchetti tidyverse e tidymodels sono già stati caricati per te.

Questo esercizio fa parte del corso

Riduzione della dimensionalità in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una recipe che usi step_corr() con una soglia di 0.7, applicando lo step solo ai predittori numerici.
  • Applica la recipe a house_sales_df e salva i dati filtrati in filtered_house_sales_df.
  • Usa tidy() per identificare la o le colonne che il filtro step_corr() ha rimosso.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a recipe using step_corr to remove numeric predictors correlated > 0.7
corr_recipe <-  
  ___(price ~ ., data = ___) %>% 
  ___(___, ___ = ___) %>% 
  ___(___) 

# Apply the recipe to the data
___ <- 
  ___ %>% 
  ___(new_data = ___)

# Identify the features that were removed
___(___, ___ = ___)
Modifica ed esegui il codice