Cross-validation-dataframes

Nu je een deel van je data hebt achtergehouden als testing data, kun je het resterende deel gebruiken om het best presterende model te vinden.

In deze oefening splits je de trainingsdata op in 5 train-validate-sets met de functie vfold_cv() uit het rsample-pakket.

Deze oefening maakt deel uit van de cursus

Machine Learning in de tidyverse

Bekijk cursus

Oefeninstructies

Bouw een dataframe voor 5-fold cross-validation van training_data met vfold_cv() en ken dit toe aan cv_split.
Maak cv_data door twee nieuwe kolommen toe te voegen aan cv_split:
- train: met de train-dataframes door training() te mappen over de kolom splits.
- validate: met de validate-dataframes door testing() te mappen over de kolom splits.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

set.seed(42)

# Prepare the data frame containing the cross validation partitions
cv_split <- vfold_cv(___, v = ___)

cv_data <- cv_split %>% 
  mutate(
    # Extract the train data frame for each split
    train = map(___, ~___(.x)), 
    # Extract the validate data frame for each split
    validate = map(___, ~___(.x))
  )

# Use head() to preview cv_data
head(cv_data)

Code bewerken en uitvoeren