KFold() do scikit-learn
Você acabou de rodar o código de um colega que cria um modelo de random forest e calcula uma acurácia fora da amostra. Você percebeu que o código do seu colega não tinha um estado aleatório, e os erros que você encontrou foram completamente diferentes dos reportados por ele.
Para obter uma estimativa melhor de quão preciso esse modelo de random forest será em novos dados, você decidiu gerar alguns índices para usar em uma validação cruzada KFold.
Este exercicio faz parte do curso
Validação de Modelos em Python
Instruções do exercicio
- Chame o método
KFold()para dividir os dados usando cinco divisões, com embaralhamento erandom_stateigual a 1111. - Use o método
split()deKFoldemX. - Imprima a quantidade de índices tanto na lista de índices de treino quanto na de validação.
exercicio interativo prático
Tente este exercicio completando este código de exemplo.
from sklearn.model_selection import KFold
# Use KFold
kf = KFold(____, ____, ____)
# Create splits
splits = kf.____(____)
# Print the number of indices
for train_index, val_index in splits:
print("Number of training indices: %s" % len(____))
print("Number of validation indices: %s" % len(____))