Data frame per la cross validation
Ora che hai messo da parte una porzione dei dati come testing data, puoi usare la parte rimanente per trovare il modello con le prestazioni migliori.
In questo esercizio, suddividerai i dati di training in una serie di 5 set train-validate usando la funzione vfold_cv() del pacchetto rsample.
Questo esercizio fa parte del corso
Machine Learning nel tidyverse
Istruzioni dell'esercizio
- Crea un data frame per la cross validation a 5 fold a partire da
training_datausandovfold_cv()e assegnalo acv_split. - Prepara
cv_dataaggiungendo due nuove colonne acv_split:train: che contiene i data frame di train mappandotraining()sulla colonnasplits.validate: che contiene i data frame di validate mappandotesting()sulla colonnasplits.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
set.seed(42)
# Prepare the data frame containing the cross validation partitions
cv_split <- vfold_cv(___, v = ___)
cv_data <- cv_split %>%
mutate(
# Extract the train data frame for each split
train = map(___, ~___(.x)),
# Extract the validate data frame for each split
validate = map(___, ~___(.x))
)
# Use head() to preview cv_data
head(cv_data)