ComeçarComece de graça

Dividindo o conjunto de dados

Para criar seus conjuntos de treino e teste, primeiro defina uma semente usando set.seed(). As sementes permitem definir um ponto inicial para números gerados aleatoriamente, de modo que, toda vez que seu código for executado, o mesmo resultado seja produzido. A vantagem disso na sua amostragem é que você, ou qualquer outra pessoa, pode recriar exatamente os mesmos conjuntos de treino e teste usando a mesma semente.

Usando sample(), você pode atribuir aleatoriamente observações aos conjuntos de treino e teste.

Neste exercício, você usará os dois primeiros argumentos da função sample():

  • O primeiro argumento é o vetor do qual vamos amostrar valores. Vamos escolher aleatoriamente números de linha como índices; você pode usar 1:nrow(loan_data) para criar o vetor de números de linha.
  • O segundo argumento é a quantidade de itens a selecionar. Vamos inserir 2 / 3 * nrow(loan_data), já que vamos construir primeiro o conjunto de treino.

Este exercício faz parte do curso

Modelagem de Risco de Crédito em R

Ver curso

Instruções do exercício

  • Defina a semente como 567 usando a função set.seed().
  • Armazene os índices de linha do conjunto de treino no objeto index_train. Use a função sample() com o primeiro e o segundo argumento conforme descrito acima.
  • Crie o conjunto de treino selecionando, do conjunto de dados loan_data, as linhas armazenadas em index_train. Salve o resultado em training_set.
  • O conjunto de teste contém as linhas que não estão em index_train. Copie o código que você usou para criar o conjunto de treino, mas use o sinal de negativo (-) imediatamente antes de index_train dentro dos colchetes. Salve o resultado em test_set.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Set seed of 567


# Store row numbers for training set: index_train


# Create training set: training_set
training_set <- loan_data[___, ]

# Create test set: test_set
Editar e executar o código