A divisão em treino e teste

Em um workflow disciplinado de Machine Learning, é crucial reservar uma parte dos seus dados (dados de teste) fora de qualquer processo de tomada de decisão. Isso permite avaliar de forma independente o desempenho do seu modelo quando ele estiver finalizado. O restante, os dados de treino, é usado para construir e selecionar o melhor modelo.

Neste exercício, você vai usar o pacote rsample para dividir seus dados e fazer a divisão inicial treino-teste do seu gapminder.

Observação: Como essa é uma divisão aleatória dos dados, é uma boa prática definir uma semente (seed) antes de fazer a divisão.

Este exercicio faz parte do curso

Machine Learning no tidyverse

Ver curso

Instruções do exercicio

Divida seus dados em 75% treino e 25% teste usando a função initial_split() e atribua a gap_split.
Extraia o data frame de treino de gap_split usando a função training().
Extraia o data frame de teste de gap_split usando a função testing().
Verifique se as dimensões dos seus novos data frames são as esperadas usando a função dim() em training_data e testing_data.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

set.seed(42)

# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)

# Extract the training data frame
training_data <- ___

# Extract the testing data frame
testing_data <- ___

# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)

Editar e Executar Código