Répartition des valeurs de la variable cible
Stratifier selon la variable cible lors de la création des jeux d’entraînement et de test garantit que les valeurs de cette variable couvrent une plage similaire dans les deux jeux.
Comme la division des données d’origine se fait aléatoirement, la stratification évite, par exemple, que toutes les maisons les plus chères de home_sales se retrouvent dans le jeu de test. Dans ce cas, votre modèle aurait de fortes chances de mal performer, car il aurait été entraîné sur des maisons moins chères.
Dans cet exercice, vous allez calculer des statistiques descriptives pour la variable selling_price dans les jeux d’entraînement et de test. Les tibbles home_training et home_test ont été chargés depuis l’exercice précédent.
Cet exercice fait partie du cours
Modéliser avec tidymodels en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Distribution of selling_price in training data
___ %>%
summarize(min_sell_price = ___,
max_sell_price = ___,
mean_sell_price = ___,
sd_sell_price = ___)