Schaal de data voor lasso-regressie
Voordat je een lasso-regressiemodel gaat fitten, is het belangrijk om de data te schalen zodat alle features onderling vergelijkbaar zijn. De volledige gegevensset met huizenverkopen in King County, Californië staat in house_sales_df.
In deze oefening schaal je de doelvariabele, price, apart voordat je de data splitst in trainings- en testsets. Dit komt door hoe tidymodels-recepten werken: we nemen transformaties van de doelvariabele niet op in het recept.
De pakketten tidyverse en tidymodels zijn alvast voor je geladen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in R
Oefeninstructies
- Schaal de doelvariabele
priceinhouse_sales_dfmetscale(). - Maak de trainings- en testsets, met 80% in de trainingsset.
- Maak het recept met de trainingsdata om alle numerieke predictoren te schalen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Scale the target variable
house_sales_df <- ___ %>%
mutate(price = as.vector(___(___)))
# Create the training and testing sets
split <- ___(___, prop = ___)
train <- ___ %>% ___()
test <- ___ %>% ___()
# Create recipe to scale the predictors
lasso_recipe <-
___(___ ~ ., data = ___) %>%
___(___())