Splits de train- en testsets
De eerste stap bij het trainen van een model is het opdelen van de data in een train- en een testset. Het tidymodels-pakket maakt dit eenvoudig. Door een testgegevensset apart te zetten, kun je het getrainde model beoordelen op data die het model nog nooit heeft gezien.
Je gebruikt de personeels-attritiegegevens uit de zorgsector, met informatie over medewerkers van een zorgbedrijf en of ze het bedrijf hebben verlaten. Deze gegevens staan in attrition_df. De doelvariabele is Attrition.
De pakketten tidyverse en tidymodels zijn al voor je geladen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in R
Oefeninstructies
- Initialiseer een datasplit met 80% voor training en stratificeer op basis van
Attrition, de doelvariabele. - Haal de trainingsgegevensset op en sla deze op in
train. - Haal de testgegevensset op en sla deze op in
test.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Initialize the split
split <- ___(___, ___ = ___, strata = ___)
# Extract training set
train <- ___ %>% ___()
# Extract testing set
test <- ___ %>% ___()