CommencerCommencer gratuitement

Créer des jeux de données d’entraînement et de test

Le package rsample est conçu pour créer des jeux de données d’entraînement et de test. Créer un jeu de test est essentiel pour estimer les performances probables d’un modèle entraîné sur de nouvelles données. Cela permet aussi d’éviter le surapprentissage, lorsqu’un modèle mémorise des motifs propres aux seules données d’entraînement et se comporte mal sur de nouvelles données.

Dans cet exercice, vous allez créer des jeux de données d’entraînement et de test à partir des données home_sales. Ces données décrivent des maisons vendues dans la région de Seattle, Washington, entre 2015 et 2016.

La variable cible dans ces données est selling_price.

Le package tidymodels est préchargé dans chaque exercice du cours. Le tibble home_sales a également été chargé pour vous.

Cet exercice fait partie du cours

Modéliser avec tidymodels en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a data split object
home_split <- ___(home_sales, 
                  prop = ___, 
                  strata = ___)
Modifier et exécuter le code