Cross-Validation-Data-Frames
Nachdem du einen Teil deiner Daten als Testdaten zurückgehalten hast, kannst du den verbleibenden Teil nutzen, um das leistungsstärkste Modell zu finden.
In dieser Übung teilst du die Trainingsdaten mithilfe der Funktion vfold_cv() aus dem Paket rsample in eine Reihe von 5 Train-Validate-Sets auf.
Diese Übung ist Teil des Kurses
Machine Learning im Tidyverse
Anleitung zur Übung
- Erstelle aus den
training_datamitvfold_cv()einen Data Frame für 5-fache Cross-Validation und weise ihncv_splitzu. - Bereite
cv_datavor, indem ducv_splitzwei neue Spalten hinzufügst:train: enthält die Train-Data-Frames, indem dutraining()über die Spaltesplitsanwendest.validate: enthält die Validate-Data-Frames, indem dutesting()über die Spaltesplitsanwendest.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
set.seed(42)
# Prepare the data frame containing the cross validation partitions
cv_split <- vfold_cv(___, v = ___)
cv_data <- cv_split %>%
mutate(
# Extract the train data frame for each split
train = map(___, ~___(.x)),
# Extract the validate data frame for each split
validate = map(___, ~___(.x))
)
# Use head() to preview cv_data
head(cv_data)