Reamostragem de dados

A primeira etapa em um projeto de Machine Learning é criar conjuntos de treino e de teste para ajustar e avaliar o modelo. O conjunto de teste fornece uma estimativa de como seu modelo vai se comportar em novos dados e ajuda a evitar overfitting.

Você vai trabalhar com o conjunto de dados telecom_df, que contém informações de clientes de uma empresa de telecomunicações. A variável de desfecho é canceled_service, que registra se um cliente cancelou o contrato com a empresa. As variáveis preditoras trazem informações sobre o uso de celular e Internet, além do tipo de contrato e das cobranças mensais.

O tibble telecom_df já foi carregado na sua sessão.

Este exercício faz parte do curso

Modelagem com tidymodels em R

Ver curso

Instruções do exercício

Crie um objeto do rsample, telecom_split, que contenha as instruções para dividir aleatoriamente os dados de telecom_df em conjuntos de treino e de teste.
- Aloque 75% dos dados para treino e estratifique os resultados por canceled_service.
Passe o objeto telecom_split para as funções apropriadas do rsample para criar os conjuntos de treino e de teste.
Verifique o número de linhas de cada conjunto passando-os para a função nrow().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create data split object
telecom_split <- ___(___, prop = ___,
                     strata = ___)

# Create the training data
telecom_training <- ___ %>% 
  ___

# Create the test data
telecom_test <- ___ %>% 
  ___

# Check the number of rows
nrow(___)
nrow(___)

Editar e executar o código