PCA no tidymodels

Do ponto de vista de construção de modelos, o PCA permite criar modelos com menos variáveis, mas ainda capturando a maior parte das informações dos dados originais. Porém, como você viu, uma desvantagem do PCA é a dificuldade de interpretar o modelo. Neste exercício, você vai se concentrar em construir um modelo de regressão linear usando um subconjunto dos dados de vendas de casas. A variável-alvo é price.

Um modelo construído diretamente a partir dos dados, sem extrair componentes principais, teve um RMSE de $236,461.4. Você vai aplicar PCA com tidymodels e comparar o novo RMSE. Lembre-se: quanto menor o RMSE, melhor.

Os pacotes tidyverse e tidymodels já foram carregados para você.

Este exercício faz parte do curso

Redução de Dimensionalidade em R

Ver curso

Instruções do exercício

Construa uma receita de PCA usando train para extrair cinco componentes principais.
Ajuste um workflow com uma especificação padrão de modelo linear_reg().
Crie um data frame de previsões de teste usando test que contenha os valores reais e previstos.
Calcule o RMSE para o modelo de regressão linear com redução por PCA.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Build a PCA recipe
pca_recipe <- ___(___ ~ ___ , data = ___) %>% 
  ___(___()) %>% 
  ___(___(), num_comp = ___) 

# Fit a workflow with a default linear_reg() model spec
house_sales_fit <- ___(preprocessor = ___, spec = ___()) %>% 
  ___(___)

# Create prediction df for the test set
house_sales_pred_df <- ___(___, test) %>% 
  ___(test %>% select(___))

# Calculate the RMSE
___(house_sales_pred_df, ___, .pred)

Editar e executar o código