Data frames de validación cruzada

Ahora que has apartado una parte de tus datos como testing data, puedes usar el resto para encontrar el modelo con mejor rendimiento.

En este ejercicio, vas a dividir los datos de entrenamiento en una serie de 5 conjuntos train-validate usando la función vfold_cv() del paquete rsample.

Este ejercicio forma parte del curso

Machine Learning en el tidyverse

Ver curso

Instrucciones del ejercicio

Crea un data frame para una validación cruzada de 5 particiones a partir de training_data usando vfold_cv() y asígnalo a cv_split.
Prepara cv_data añadiendo dos columnas nuevas a cv_split:
- train: que contenga los data frames de entrenamiento mapeando training() sobre la columna splits.
- validate: que contenga los data frames de validación mapeando testing() sobre la columna splits.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

set.seed(42)

# Prepare the data frame containing the cross validation partitions
cv_split <- vfold_cv(___, v = ___)

cv_data <- cv_split %>% 
  mutate(
    # Extract the train data frame for each split
    train = map(___, ~___(.x)), 
    # Extract the validate data frame for each split
    validate = map(___, ~___(.x))
  )

# Use head() to preview cv_data
head(cv_data)

Editar y ejecutar código