Reamostragem de dados
A primeira etapa em um projeto de Machine Learning é criar conjuntos de treino e de teste para ajustar e avaliar o modelo. O conjunto de teste fornece uma estimativa de como seu modelo vai se comportar em novos dados e ajuda a evitar overfitting.
Você vai trabalhar com o conjunto de dados telecom_df, que contém informações de clientes de uma empresa de telecomunicações. A variável de desfecho é canceled_service, que registra se um cliente cancelou o contrato com a empresa. As variáveis preditoras trazem informações sobre o uso de celular e Internet, além do tipo de contrato e das cobranças mensais.
O tibble telecom_df já foi carregado na sua sessão.
Este exercício faz parte do curso
Modelagem com tidymodels em R
Instruções do exercício
- Crie um objeto do
rsample,telecom_split, que contenha as instruções para dividir aleatoriamente os dados detelecom_dfem conjuntos de treino e de teste.- Aloque 75% dos dados para treino e estratifique os resultados por
canceled_service.
- Aloque 75% dos dados para treino e estratifique os resultados por
- Passe o objeto
telecom_splitpara as funções apropriadas dorsamplepara criar os conjuntos de treino e de teste. - Verifique o número de linhas de cada conjunto passando-os para a função
nrow().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create data split object
telecom_split <- ___(___, prop = ___,
strata = ___)
# Create the training data
telecom_training <- ___ %>%
___
# Create the test data
telecom_test <- ___ %>%
___
# Check the number of rows
nrow(___)
nrow(___)