ComenzarEmpieza gratis

Remuestreo de datos

El primer paso en un proyecto de Machine Learning es crear los conjuntos de entrenamiento y prueba para ajustar y evaluar el modelo. El conjunto de prueba ofrece una estimación de cómo se comportará tu modelo con datos nuevos y ayuda a evitar el sobreajuste.

Trabajarás con el conjunto de datos telecom_df, que contiene información sobre clientes de una empresa de telecomunicaciones. La variable objetivo es canceled_service y registra si un cliente canceló su contrato con la empresa. Las variables predictoras contienen información sobre el uso de teléfono móvil e Internet, así como el tipo de contrato y los cargos mensuales.

El tibble telecom_df ya se ha cargado en tu sesión.

Este ejercicio forma parte del curso

Modelado con tidymodels en R

Ver curso

Instrucciones del ejercicio

  • Crea un objeto de rsample, telecom_split, que contenga las instrucciones para dividir aleatoriamente los datos de telecom_df en conjuntos de entrenamiento y prueba.
    • Asigna el 75% de los datos al entrenamiento y estratifica los resultados por canceled_service.
  • Pasa el objeto telecom_split a las funciones correspondientes de rsample para crear los conjuntos de entrenamiento y prueba.
  • Comprueba el número de filas de cada conjunto pasándolos a la función nrow().

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create data split object
telecom_split <- ___(___, prop = ___,
                     strata = ___)

# Create the training data
telecom_training <- ___ %>% 
  ___

# Create the test data
telecom_test <- ___ %>% 
  ___

# Check the number of rows
nrow(___)
nrow(___)
Editar y ejecutar código