Padronize os dados para lasso regression
Para preparar o ajuste de um modelo de lasso regression, é importante padronizar os dados para que todas as features sejam comparáveis entre si. O conjunto completo de dados de vendas de casas do condado de King, Califórnia, está disponível em house_sales_df.
Neste exercício, você vai padronizar a variável alvo, price, separadamente antes de dividir os dados em conjuntos de treino e teste. Isso acontece por causa de como as recipes do tidymodels funcionam. Não incluímos transformações da variável alvo na recipe.
Os pacotes tidyverse e tidymodels já foram carregados para você.
Este exercício faz parte do curso
Redução de Dimensionalidade em R
Instruções do exercício
- Padronize a variável alvo
priceemhouse_sales_dfusandoscale(). - Crie os conjuntos de treino e teste com 80% no conjunto de treino.
- Crie a recipe usando os dados de treino para padronizar todos os preditores numéricos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Scale the target variable
house_sales_df <- ___ %>%
mutate(price = as.vector(___(___)))
# Create the training and testing sets
split <- ___(___, prop = ___)
train <- ___ %>% ___()
test <- ___ %>% ___()
# Create recipe to scale the predictors
lasso_recipe <-
___(___ ~ ., data = ___) %>%
___(___())