Scinder les données
Dans cet exercice, vous allez scinder vos données en ensembles d’entraînement et de test à l’aide du package caret. Dans la prochaine série de leçons, vous utiliserez l’ensemble d’entraînement pour construire des modèles de régression logistique et l’ensemble de test pour valider ces modèles.
Cet exercice fait partie du cours
Analytique RH : prédire l’attrition des employés en R
Instructions
- Chargez le package
caret. - Fixez une graine à 567 et créez une partition qui divise le jeu de données
emp_finalen sections entraînement/test de 70 % / 30 %. - Créez l’ensemble d’entraînement en sélectionnant, dans le jeu de données
emp_final, les numéros de lignes stockés dansindex_train. - Attribuez les observations restantes de
emp_finalà l’ensemble de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load caret
___
# Set seed of 567
___
# Store row numbers for training dataset: index_train
index_train <- ___(emp_final$turnover, p = ___, list = FALSE)
# Create training dataset: train_set
train_set <- emp_final[___, ]
# Create testing dataset: test_set
test_set <- emp_final[___, ]