Ajuster un modèle aux données d’entraînement
Il est temps de diviser vos données en un ensemble d’entraînement pour ajuster un modèle et un ensemble de test distinct pour évaluer sa capacité prédictive. Avant de faire cette séparation, nous allons d’abord échantillonner 100 % des lignes de house_prices sans remise et l’affecter à house_prices_shuffled. Cela permet de « mélanger » les lignes et garantit ainsi que les ensembles d’entraînement et de test sont échantillonnés de façon aléatoire.
Cet exercice fait partie du cours
Modéliser des données avec le Tidyverse
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set random number generator seed value for reproducibility
set.seed(76)
# Randomly reorder the rows
house_prices_shuffled <- house_prices %>%
sample_frac(size = 1, replace = FALSE)
# Train/test split
train <- house_prices_shuffled %>%
slice(___:___)
test <- house_prices_shuffled %>%
slice(___:___)