LoslegenKostenlos loslegen

Cross-Validation-Data-Frames

Nachdem du einen Teil deiner Daten als Testdaten zurückgehalten hast, kannst du den verbleibenden Teil nutzen, um das leistungsstärkste Modell zu finden.

In dieser Übung teilst du die Trainingsdaten mithilfe der Funktion vfold_cv() aus dem Paket rsample in eine Reihe von 5 Train-Validate-Sets auf.

Diese Übung ist Teil des Kurses

Machine Learning im Tidyverse

Kurs anzeigen

Anleitung zur Übung

  • Erstelle aus den training_data mit vfold_cv() einen Data Frame für 5-fache Cross-Validation und weise ihn cv_split zu.
  • Bereite cv_data vor, indem du cv_split zwei neue Spalten hinzufügst:
    • train: enthält die Train-Data-Frames, indem du training() über die Spalte splits anwendest.
    • validate: enthält die Validate-Data-Frames, indem du testing() über die Spalte splits anwendest.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

set.seed(42)

# Prepare the data frame containing the cross validation partitions
cv_split <- vfold_cv(___, v = ___)

cv_data <- cv_split %>% 
  mutate(
    # Extract the train data frame for each split
    train = map(___, ~___(.x)), 
    # Extract the validate data frame for each split
    validate = map(___, ~___(.x))
  )

# Use head() to preview cv_data
head(cv_data)
Code bearbeiten und ausführen