PCA no tidymodels
Do ponto de vista de construção de modelos, o PCA permite criar modelos com menos variáveis, mas ainda capturando a maior parte das informações dos dados originais. Porém, como você viu, uma desvantagem do PCA é a dificuldade de interpretar o modelo. Neste exercício, você vai se concentrar em construir um modelo de regressão linear usando um subconjunto dos dados de vendas de casas. A variável-alvo é price.
Um modelo construído diretamente a partir dos dados, sem extrair componentes principais, teve um RMSE de $236,461.4. Você vai aplicar PCA com tidymodels e comparar o novo RMSE. Lembre-se: quanto menor o RMSE, melhor.
Os pacotes tidyverse e tidymodels já foram carregados para você.
Este exercício faz parte do curso
Redução de Dimensionalidade em R
Instruções do exercício
- Construa uma receita de PCA usando
trainpara extrair cinco componentes principais. - Ajuste um workflow com uma especificação padrão de modelo
linear_reg(). - Crie um data frame de previsões de teste usando
testque contenha os valores reais e previstos. - Calcule o RMSE para o modelo de regressão linear com redução por PCA.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Build a PCA recipe
pca_recipe <- ___(___ ~ ___ , data = ___) %>%
___(___()) %>%
___(___(), num_comp = ___)
# Fit a workflow with a default linear_reg() model spec
house_sales_fit <- ___(preprocessor = ___, spec = ___()) %>%
___(___)
# Create prediction df for the test set
house_sales_pred_df <- ___(___, test) %>%
___(test %>% select(___))
# Calculate the RMSE
___(house_sales_pred_df, ___, .pred)