Data frame per la cross validation

Ora che hai messo da parte una porzione dei dati come testing data, puoi usare la parte rimanente per trovare il modello con le prestazioni migliori.

In questo esercizio, suddividerai i dati di training in una serie di 5 set train-validate usando la funzione vfold_cv() del pacchetto rsample.

Questo esercizio fa parte del corso

Machine Learning nel tidyverse

Visualizza corso

Istruzioni dell'esercizio

Crea un data frame per la cross validation a 5 fold a partire da training_data usando vfold_cv() e assegnalo a cv_split.
Prepara cv_data aggiungendo due nuove colonne a cv_split:
- train: che contiene i data frame di train mappando training() sulla colonna splits.
- validate: che contiene i data frame di validate mappando testing() sulla colonna splits.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

set.seed(42)

# Prepare the data frame containing the cross validation partitions
cv_split <- vfold_cv(___, v = ___)

cv_data <- cv_split %>% 
  mutate(
    # Extract the train data frame for each split
    train = map(___, ~___(.x)), 
    # Extract the validate data frame for each split
    validate = map(___, ~___(.x))
  )

# Use head() to preview cv_data
head(cv_data)

Modifica ed esegui il codice