IniziaInizia gratis

PCA con tidymodels

Dal punto di vista della costruzione dei modelli, la PCA ti permette di creare modelli con meno caratteristiche, pur catturando gran parte delle informazioni presenti nei dati originali. Tuttavia, come hai visto, uno svantaggio della PCA è la difficoltà di interpretare il modello. In questo esercizio ti concentrerai sulla costruzione di un modello di regressione lineare usando un sottoinsieme dei dati sulle vendite di case. La variabile target è price.

Un modello costruito direttamente dai dati senza estrarre le componenti principali ha un RMSE di $236.461,4. Applicherai la PCA con tidymodels e confronterai il nuovo RMSE. Ricorda: valori di RMSE più bassi sono migliori.

I pacchetti tidyverse e tidymodels sono già stati caricati per te.

Questo esercizio fa parte del corso

Riduzione della dimensionalità in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una ricetta PCA usando train per estrarre cinque componenti principali.
  • Adatta un workflow con una specifica di modello linear_reg() predefinita.
  • Crea un data frame di predizioni di test usando test che contenga i valori reali e quelli previsti.
  • Calcola l’RMSE per il modello di regressione lineare ridotto con PCA.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Build a PCA recipe
pca_recipe <- ___(___ ~ ___ , data = ___) %>% 
  ___(___()) %>% 
  ___(___(), num_comp = ___) 

# Fit a workflow with a default linear_reg() model spec
house_sales_fit <- ___(preprocessor = ___, spec = ___()) %>% 
  ___(___)

# Create prediction df for the test set
house_sales_pred_df <- ___(___, test) %>% 
  ___(test %>% select(___))

# Calculate the RMSE
___(house_sales_pred_df, ___, .pred)
Modifica ed esegui il codice