Remuestreo de datos
El primer paso en un proyecto de Machine Learning es crear los conjuntos de entrenamiento y prueba para ajustar y evaluar el modelo. El conjunto de prueba ofrece una estimación de cómo se comportará tu modelo con datos nuevos y ayuda a evitar el sobreajuste.
Trabajarás con el conjunto de datos telecom_df, que contiene información sobre clientes de una empresa de telecomunicaciones. La variable objetivo es canceled_service y registra si un cliente canceló su contrato con la empresa. Las variables predictoras contienen información sobre el uso de teléfono móvil e Internet, así como el tipo de contrato y los cargos mensuales.
El tibble telecom_df ya se ha cargado en tu sesión.
Este ejercicio forma parte del curso
Modelado con tidymodels en R
Instrucciones del ejercicio
- Crea un objeto de
rsample,telecom_split, que contenga las instrucciones para dividir aleatoriamente los datos detelecom_dfen conjuntos de entrenamiento y prueba.- Asigna el 75% de los datos al entrenamiento y estratifica los resultados por
canceled_service.
- Asigna el 75% de los datos al entrenamiento y estratifica los resultados por
- Pasa el objeto
telecom_splita las funciones correspondientes dersamplepara crear los conjuntos de entrenamiento y prueba. - Comprueba el número de filas de cada conjunto pasándolos a la función
nrow().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create data split object
telecom_split <- ___(___, prop = ___,
strata = ___)
# Create the training data
telecom_training <- ___ %>%
___
# Create the test data
telecom_test <- ___ %>%
___
# Check the number of rows
nrow(___)
nrow(___)