Aan de slagGa gratis aan de slag

Splits de train- en testsets

De eerste stap bij het trainen van een model is het opdelen van de data in een train- en een testset. Het tidymodels-pakket maakt dit eenvoudig. Door een testgegevensset apart te zetten, kun je het getrainde model beoordelen op data die het model nog nooit heeft gezien.

Je gebruikt de personeels-attritiegegevens uit de zorgsector, met informatie over medewerkers van een zorgbedrijf en of ze het bedrijf hebben verlaten. Deze gegevens staan in attrition_df. De doelvariabele is Attrition.

De pakketten tidyverse en tidymodels zijn al voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Cursus bekijken

Oefeninstructies

  • Initialiseer een datasplit met 80% voor training en stratificeer op basis van Attrition, de doelvariabele.
  • Haal de trainingsgegevensset op en sla deze op in train.
  • Haal de testgegevensset op en sla deze op in test.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Initialize the split
split <- ___(___, ___ = ___, strata = ___)

# Extract training set
train <- ___ %>% ___()

# Extract testing set
test <- ___ %>% ___()
Code bewerken en uitvoeren