ComeçarComece de graça

KFold() do scikit-learn

Você acabou de rodar o código de um colega que cria um modelo de random forest e calcula uma acurácia fora da amostra. Você percebeu que o código do seu colega não tinha um estado aleatório, e os erros que você encontrou foram completamente diferentes dos reportados por ele.

Para obter uma estimativa melhor de quão preciso esse modelo de random forest será em novos dados, você decidiu gerar alguns índices para usar em uma validação cruzada KFold.

Este exercício faz parte do curso

Validação de Modelos em Python

Ver curso

Instruções do exercício

  • Chame o método KFold() para dividir os dados usando cinco divisões, com embaralhamento e random_state igual a 1111.
  • Use o método split() de KFold em X.
  • Imprima a quantidade de índices tanto na lista de índices de treino quanto na de validação.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from sklearn.model_selection import KFold

# Use KFold
kf = KFold(____, ____, ____)

# Create splits
splits = kf.____(____)

# Print the number of indices
for train_index, val_index in splits:
    print("Number of training indices: %s" % len(____))
    print("Number of validation indices: %s" % len(____))
Editar e executar o código