Splits de data

In deze oefening splits je je data in een trainings- en een testset met het caret-pakket. In de volgende lessen gebruik je de trainingsset om logistische regressiemodellen te bouwen en de testset om deze modellen te valideren.

Deze oefening maakt deel uit van de cursus

HR-analytics: verloop van medewerkers voorspellen in R

Bekijk cursus

Oefeninstructies

Laad het caret-pakket.
Stel een seed in van 567 en maak een datapartitie die de gegevensset emp_final verdeelt in 70%/30% train/test.
Maak de trainingsgegevensset door de rijnummers uit index_train te selecteren in de gegevensset emp_final.
Wijs de overgebleven observaties uit emp_final toe aan de testset.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load caret
___

# Set seed of 567
___

# Store row numbers for training dataset: index_train
index_train <- ___(emp_final$turnover, p = ___, list = FALSE)

# Create training dataset: train_set
train_set <- emp_final[___, ]

# Create testing dataset: test_set
test_set <- emp_final[___, ]

Code bewerken en uitvoeren