La partición train-test
En un flujo de trabajo disciplinado de Machine Learning es fundamental reservar una parte de tus datos (datos de prueba) fuera de cualquier proceso de toma de decisiones. Esto te permite evaluar de forma independiente el rendimiento de tu modelo cuando esté finalizado. El resto de datos, los datos de entrenamiento, se usan para construir y seleccionar el mejor modelo.
En este ejercicio, usarás el paquete rsample para dividir tus datos y realizar la partición inicial train-test de tus datos de gapminder.
Nota: Como esta es una división aleatoria de los datos, es buena práctica fijar una semilla antes de dividirlos.
Este ejercicio forma parte del curso
Machine Learning en el tidyverse
Instrucciones del ejercicio
- Divide tus datos en un 75% de entrenamiento y un 25% de prueba usando la función
initial_split()y asígnalo agap_split. - Extrae el data frame de entrenamiento de
gap_splitusando la funcióntraining(). - Extrae el data frame de prueba de
gap_splitusando la funcióntesting(). - Comprueba que las dimensiones de tus nuevos data frames son las esperadas usando la función
dim()sobretraining_dataytesting_data.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
set.seed(42)
# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)
# Extract the training data frame
training_data <- ___
# Extract the testing data frame
testing_data <- ___
# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)