Cross-Validation-Data-Frames
Nachdem du einen Teil deiner Daten als Testdaten zurückgehalten hast, kannst du den verbleibenden Teil nutzen, um das leistungsstärkste Modell zu finden.
In dieser Übung teilst du die Trainingsdaten mithilfe der Funktion vfold_cv() aus dem Paket rsample in eine Reihe von 5 Train-Validate-Sets auf.
Diese Übung ist Teil des Kurses
<Kurs>Machine Learning im Tidyverse</Kurs>Übungsanweisungen
- Erstelle aus den
training_datamitvfold_cv()einen Data Frame für 5-fache Cross-Validation und weise ihncv_splitzu. - Bereite
cv_datavor, indem ducv_splitzwei neue Spalten hinzufügst:train: enthält die Train-Data-Frames, indem dutraining()über die Spaltesplitsanwendest.validate: enthält die Validate-Data-Frames, indem dutesting()über die Spaltesplitsanwendest.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
set.seed(42)
# Prepare the data frame containing the cross validation partitions
cv_split <- vfold_cv(___, v = ___)
cv_data <- cv_split %>%
mutate(
# Extract the train data frame for each split
train = map(___, ~___(.x)),
# Extract the validate data frame for each split
validate = map(___, ~___(.x))
)
# Use head() to preview cv_data
head(cv_data)