La partición train-test

En un flujo de trabajo disciplinado de Machine Learning es fundamental reservar una parte de tus datos (datos de prueba) fuera de cualquier proceso de toma de decisiones. Esto te permite evaluar de forma independiente el rendimiento de tu modelo cuando esté finalizado. El resto de datos, los datos de entrenamiento, se usan para construir y seleccionar el mejor modelo.

En este ejercicio, usarás el paquete rsample para dividir tus datos y realizar la partición inicial train-test de tus datos de gapminder.

Nota: Como esta es una división aleatoria de los datos, es buena práctica fijar una semilla antes de dividirlos.

Este ejercicio forma parte del curso

Machine Learning en el tidyverse

Ver curso

Instrucciones del ejercicio

Divide tus datos en un 75% de entrenamiento y un 25% de prueba usando la función initial_split() y asígnalo a gap_split.
Extrae el data frame de entrenamiento de gap_split usando la función training().
Extrae el data frame de prueba de gap_split usando la función testing().
Comprueba que las dimensiones de tus nuevos data frames son las esperadas usando la función dim() sobre training_data y testing_data.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

set.seed(42)

# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)

# Extract the training data frame
training_data <- ___

# Extract the testing data frame
testing_data <- ___

# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)

Editar y ejecutar código