Splits de data
In deze oefening splits je je data in een trainings- en een testset met het caret-pakket. In de volgende lessen gebruik je de trainingsset om logistische regressiemodellen te bouwen en de testset om deze modellen te valideren.
Deze oefening maakt deel uit van de cursus
HR-analytics: verloop van medewerkers voorspellen in R
Oefeninstructies
- Laad het
caret-pakket. - Stel een seed in van 567 en maak een datapartitie die de gegevensset
emp_finalverdeelt in 70%/30% train/test. - Maak de trainingsgegevensset door de rijnummers uit
index_trainte selecteren in de gegevenssetemp_final. - Wijs de overgebleven observaties uit
emp_finaltoe aan de testset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load caret
___
# Set seed of 567
___
# Store row numbers for training dataset: index_train
index_train <- ___(emp_final$turnover, p = ___, list = FALSE)
# Create training dataset: train_set
train_set <- emp_final[___, ]
# Create testing dataset: test_set
test_set <- emp_final[___, ]