Criação de conjuntos de dados de teste aleatórios

Antes de criar um modelo de empréstimo mais sofisticado, é importante manter uma parte dos dados de empréstimo para simular a capacidade de prever os resultados de futuros solicitantes de empréstimo.

Conforme mostrado na imagem a seguir, você pode usar 75% das observações para treinamento e 25% para testar o modelo.

A função sample() pode ser usada para gerar uma amostra aleatória de linhas a serem incluídas no conjunto de treinamento. Basta fornecer a ele o número total de observações e o número necessário para o treinamento.

Use o vetor resultante da linha IDs para subconjuntar os empréstimos em conjuntos de dados de treinamento e teste. O conjunto de dados loans está disponível para você usar.

Este exercicio faz parte do curso

Aprendizagem supervisionada em R: Classificação

Ver curso

Instruções do exercicio

Aplique a função nrow() para determinar quantas observações existem no conjunto de dados loans e o número necessário para uma amostra de 75%.
Use a função sample() para criar um vetor inteiro de linhas IDs para a amostra de 75%. O primeiro argumento de sample() deve ser o número de linhas no conjunto de dados, e o segundo é o número de linhas que você precisa no conjunto de treinamento.
Faça um subconjunto dos dados de loans usando a linha IDs para criar o conjunto de dados de treinamento. Salve isso como loans_train.
Subconjunto loans novamente, mas desta vez selecione todas as linhas que não estão em sample_rows. Salvar isso como loans_test

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Determine the number of rows for training


# Create a random sample of row IDs
sample_rows <- sample(___, ___)

# Create the training dataset
loans_train <- loans[___]

# Create the test dataset
loans_test <- loans[___]

Editar e Executar Código