Mettre les données à l’échelle pour la régression lasso
Pour préparer l’ajustement d’un modèle de régression lasso, il est important de mettre les données à l’échelle afin que toutes les caractéristiques soient comparables entre elles. L’ensemble complet des ventes de maisons du comté de King, Californie, est disponible dans house_sales_df.
Dans cet exercice, vous allez mettre à l’échelle la variable cible, price, séparément avant de scinder les données en ensembles d’entraînement et de test. Cela est dû au fonctionnement des recettes tidymodels. Nous n’incluons pas les transformations de la variable cible dans la recette.
Les packages tidyverse et tidymodels ont été chargés pour vous.
Cet exercice fait partie du cours
Réduction de dimension en R
Instructions
- Mettez à l’échelle la variable cible
pricedanshouse_sales_dfen utilisantscale(). - Créez les ensembles d’entraînement et de test avec 80 % des données dans l’ensemble d’entraînement.
- Créez la recette à partir des données d’entraînement pour mettre à l’échelle tous les prédicteurs numériques.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Scale the target variable
house_sales_df <- ___ %>%
mutate(price = as.vector(___(___)))
# Create the training and testing sets
split <- ___(___, prop = ___)
train <- ___ %>% ___()
test <- ___ %>% ___()
# Create recipe to scale the predictors
lasso_recipe <-
___(___ ~ ., data = ___) %>%
___(___())