Onderbouw de splitsingen
In de vorige oefening heb je de gegevensset gesplitst in train_set en test_set. Het is belangrijk om te controleren dat de data waarop je je model traint representatief is voor de testset. Laten we dus nagaan of zowel train_set als test_set dezelfde verhouding actieve en inactieve medewerkers hebben.
Deze oefening maakt deel uit van de cursus
HR-analytics: verloop van medewerkers voorspellen in R
Oefeninstructies
Bereken de verhouding Active en Inactive medewerkers in train_set en test_set.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Calculate turnover proportion in train_set
train_set %>%
___(status) %>%
___(prop = n / sum(n))
# Calculate turnover proportion in test_set
test_set %>%
___(status) %>%
___(prop = n / sum(n))