Cross-validation-dataframes
Nu je een deel van je data hebt achtergehouden als testing data, kun je het resterende deel gebruiken om het best presterende model te vinden.
In deze oefening splits je de trainingsdata op in 5 train-validate-sets met de functie vfold_cv() uit het rsample-pakket.
Deze oefening maakt deel uit van de cursus
Machine Learning in de tidyverse
Oefeninstructies
- Bouw een dataframe voor 5-fold cross-validation van
training_datametvfold_cv()en ken dit toe aancv_split. - Maak
cv_datadoor twee nieuwe kolommen toe te voegen aancv_split:train: met de train-dataframes doortraining()te mappen over de kolomsplits.validate: met de validate-dataframes doortesting()te mappen over de kolomsplits.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
set.seed(42)
# Prepare the data frame containing the cross validation partitions
cv_split <- vfold_cv(___, v = ___)
cv_data <- cv_split %>%
mutate(
# Extract the train data frame for each split
train = map(___, ~___(.x)),
# Extract the validate data frame for each split
validate = map(___, ~___(.x))
)
# Use head() to preview cv_data
head(cv_data)