Experimente uma divisão 80/20
Agora que seu conjunto de dados está em ordem aleatória, você pode separar os primeiros 80% em um conjunto de treino e os últimos 20% em um conjunto de teste. Você pode fazer isso escolhendo um ponto de corte aproximadamente em 80% do seu conjunto de dados:
split <- round(nrow(mydata) * 0.80)
Depois, use esse ponto para destacar os primeiros 80% do conjunto de dados como conjunto de treino:
mydata[1:split, ]
E use o mesmo ponto para definir o conjunto de teste:
mydata[(split + 1):nrow(mydata), ]
Este exercício faz parte do curso
Machine Learning com caret em R
Instruções do exercício
- Escolha um índice de linha para a divisão, de forma que o ponto de corte fique aproximadamente em 80% do conjunto
diamonds. Chame esse índice desplit. - Crie um conjunto de treino chamado
trainusando esse índice. - Crie um conjunto de teste chamado
testusando esse índice.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Determine row to split on: split
# Create train
# Create test