Dividindo o conjunto de dados
Para criar seus conjuntos de treino e teste, primeiro defina uma semente usando set.seed(). As sementes permitem definir um ponto inicial para números gerados aleatoriamente, de modo que, toda vez que seu código for executado, o mesmo resultado seja produzido. A vantagem disso na sua amostragem é que você, ou qualquer outra pessoa, pode recriar exatamente os mesmos conjuntos de treino e teste usando a mesma semente.
Usando sample(), você pode atribuir aleatoriamente observações aos conjuntos de treino e teste.
Neste exercício, você usará os dois primeiros argumentos da função sample():
- O primeiro argumento é o vetor do qual vamos amostrar valores. Vamos escolher aleatoriamente números de linha como índices; você pode usar
1:nrow(loan_data)para criar o vetor de números de linha. - O segundo argumento é a quantidade de itens a selecionar. Vamos inserir
2 / 3 * nrow(loan_data), já que vamos construir primeiro o conjunto de treino.
Este exercício faz parte do curso
Modelagem de Risco de Crédito em R
Instruções do exercício
- Defina a semente como 567 usando a função
set.seed(). - Armazene os índices de linha do conjunto de treino no objeto
index_train. Use a funçãosample()com o primeiro e o segundo argumento conforme descrito acima. - Crie o conjunto de treino selecionando, do conjunto de dados
loan_data, as linhas armazenadas emindex_train. Salve o resultado emtraining_set. - O conjunto de teste contém as linhas que não estão em
index_train. Copie o código que você usou para criar o conjunto de treino, mas use o sinal de negativo (-) imediatamente antes deindex_traindentro dos colchetes. Salve o resultado emtest_set.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Set seed of 567
# Store row numbers for training set: index_train
# Create training set: training_set
training_set <- loan_data[___, ]
# Create test set: test_set