Séparer les ensembles d’entraînement et de test
La première étape pour entraîner un modèle consiste à diviser les données en ensembles d’entraînement et de test. Le package tidymodels facilite cette opération. Mettre de côté un ensemble de test vous permet d’évaluer le modèle entraîné sur des données qu’il n’a jamais vues.
Vous utiliserez les données d’attrition du personnel d’une entreprise de santé, qui contiennent des informations sur les employés et indiquent s’ils ont quitté l’entreprise ou non. Elles sont disponibles dans attrition_df. La variable cible est Attrition.
Les packages tidyverse et tidymodels ont été chargés pour vous.
Cet exercice fait partie du cours
Réduction de dimension en R
Instructions
- Initialisez une division des données avec 80 % pour l’entraînement et effectuez une stratification selon
Attrition, la variable cible. - Extrayez l’ensemble d’entraînement et stockez-le dans
train. - Extrayez l’ensemble de test et stockez-le dans
test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Initialize the split
split <- ___(___, ___ = ___, strata = ___)
# Extract training set
train <- ___ %>% ___()
# Extract testing set
test <- ___ %>% ___()