Criação de conjuntos de dados de teste aleatórios
Antes de criar um modelo de empréstimo mais sofisticado, é importante manter uma parte dos dados de empréstimo para simular a capacidade de prever os resultados de futuros solicitantes de empréstimo.
Conforme mostrado na imagem a seguir, você pode usar 75% das observações para treinamento e 25% para testar o modelo.
A função sample()
pode ser usada para gerar uma amostra aleatória de linhas a serem incluídas no conjunto de treinamento. Basta fornecer a ele o número total de observações e o número necessário para o treinamento.
Use o vetor resultante de IDs de linha para subconjuntar os empréstimos em conjuntos de dados de treinamento e teste. O conjunto de dados loans
está disponível para você usar.
Este exercício faz parte do curso
Aprendizagem supervisionada em R: Classificação
Instruções do exercício
- Aplique a função
nrow()
para determinar quantas observações existem no conjunto de dadosloans
e o número necessário para uma amostra de 75%. - Use a função
sample()
para criar um vetor inteiro de IDs de linha para a amostra de 75%. O primeiro argumento desample()
deve ser o número de linhas no conjunto de dados, e o segundo é o número de linhas que você precisa no conjunto de treinamento. - Faça um subconjunto dos dados de
loans
usando os IDs de linha para criar o conjunto de dados de treinamento. Salve o resultado comoloans_train
. - Subconjunto
loans
novamente, mas desta vez selecione todas as linhas que não estão emsample_rows
. Salvar isso comoloans_test
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Determine the number of rows for training
# Create a random sample of row IDs
sample_rows <- sample(___, ___)
# Create the training dataset
loans_train <- loans[___]
# Create the test dataset
loans_test <- loans[___]