CommencerCommencer gratuitement

Séparer les ensembles d’entraînement et de test

La première étape pour entraîner un modèle consiste à diviser les données en ensembles d’entraînement et de test. Le package tidymodels facilite cette opération. Mettre de côté un ensemble de test vous permet d’évaluer le modèle entraîné sur des données qu’il n’a jamais vues.

Vous utiliserez les données d’attrition du personnel d’une entreprise de santé, qui contiennent des informations sur les employés et indiquent s’ils ont quitté l’entreprise ou non. Elles sont disponibles dans attrition_df. La variable cible est Attrition.

Les packages tidyverse et tidymodels ont été chargés pour vous.

Cet exercice fait partie du cours

Réduction de dimension en R

Afficher le cours

Instructions

  • Initialisez une division des données avec 80 % pour l’entraînement et effectuez une stratification selon Attrition, la variable cible.
  • Extrayez l’ensemble d’entraînement et stockez-le dans train.
  • Extrayez l’ensemble de test et stockez-le dans test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Initialize the split
split <- ___(___, ___ = ___, strata = ___)

# Extract training set
train <- ___ %>% ___()

# Extract testing set
test <- ___ %>% ___()
Modifier et exécuter le code