ComeçarComece de graça

Criação de conjuntos de dados de teste aleatórios

Antes de criar um modelo de empréstimo mais sofisticado, é importante manter uma parte dos dados de empréstimo para simular a capacidade de prever os resultados de futuros solicitantes de empréstimo.

Conforme mostrado na imagem a seguir, você pode usar 75% das observações para treinamento e 25% para testar o modelo.

A função sample() pode ser usada para gerar uma amostra aleatória de linhas a serem incluídas no conjunto de treinamento. Basta fornecer a ele o número total de observações e o número necessário para o treinamento.

Use o vetor resultante de IDs de linha para subconjuntar os empréstimos em conjuntos de dados de treinamento e teste. O conjunto de dados loans está disponível para você usar.

Este exercício faz parte do curso

Aprendizagem supervisionada em R: Classificação

Ver curso

Instruções do exercício

  • Aplique a função nrow() para determinar quantas observações existem no conjunto de dados loans e o número necessário para uma amostra de 75%.
  • Use a função sample() para criar um vetor inteiro de IDs de linha para a amostra de 75%. O primeiro argumento de sample() deve ser o número de linhas no conjunto de dados, e o segundo é o número de linhas que você precisa no conjunto de treinamento.
  • Faça um subconjunto dos dados de loans usando os IDs de linha para criar o conjunto de dados de treinamento. Salve o resultado como loans_train.
  • Subconjunto loans novamente, mas desta vez selecione todas as linhas que não estão em sample_rows. Salvar isso como loans_test

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Determine the number of rows for training


# Create a random sample of row IDs
sample_rows <- sample(___, ___)

# Create the training dataset
loans_train <- loans[___]

# Create the test dataset
loans_test <- loans[___]
Editar e executar o código