LoslegenKostenlos starten

Cross-Validation-Data-Frames

Nachdem du einen Teil deiner Daten als Testdaten zurückgehalten hast, kannst du den verbleibenden Teil nutzen, um das leistungsstärkste Modell zu finden.

In dieser Übung teilst du die Trainingsdaten mithilfe der Funktion vfold_cv() aus dem Paket rsample in eine Reihe von 5 Train-Validate-Sets auf.

Diese Übung ist Teil des Kurses

<Kurs>Machine Learning im Tidyverse</Kurs>
Kurs ansehen

Übungsanweisungen

  • Erstelle aus den training_data mit vfold_cv() einen Data Frame für 5-fache Cross-Validation und weise ihn cv_split zu.
  • Bereite cv_data vor, indem du cv_split zwei neue Spalten hinzufügst:
    • train: enthält die Train-Data-Frames, indem du training() über die Spalte splits anwendest.
    • validate: enthält die Validate-Data-Frames, indem du testing() über die Spalte splits anwendest.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

set.seed(42)

# Prepare the data frame containing the cross validation partitions
cv_split <- vfold_cv(___, v = ___)

cv_data <- cv_split %>% 
  mutate(
    # Extract the train data frame for each split
    train = map(___, ~___(.x)), 
    # Extract the validate data frame for each split
    validate = map(___, ~___(.x))
  )

# Use head() to preview cv_data
head(cv_data)
Code bearbeiten und ausführen