KFold() do scikit-learn

Você acabou de rodar o código de um colega que cria um modelo de random forest e calcula uma acurácia fora da amostra. Você percebeu que o código do seu colega não tinha um estado aleatório, e os erros que você encontrou foram completamente diferentes dos reportados por ele.

Para obter uma estimativa melhor de quão preciso esse modelo de random forest será em novos dados, você decidiu gerar alguns índices para usar em uma validação cruzada KFold.

Este exercício faz parte do curso

Validação de Modelos em Python

Instruções do exercício

Chame o método KFold() para dividir os dados usando cinco divisões, com embaralhamento e random_state igual a 1111.
Use o método split() de KFold em X.
Imprima a quantidade de índices tanto na lista de índices de treino quanto na de validação.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from sklearn.model_selection import KFold

# Use KFold
kf = KFold(____, ____, ____)

# Create splits
splits = kf.____(____)

# Print the number of indices
for train_index, val_index in splits:
    print("Number of training indices: %s" % len(____))
    print("Number of validation indices: %s" % len(____))

Editar e executar o código

Este exercício faz parte do curso

Validação de Modelos em Python

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Antes de validar modelos, precisamos entender como criá-los e trabalhar com eles. Este capítulo apresenta a execução de modelos de regressão e classificação no scikit-learn. Vamos usar essa base de construção de modelos ao longo dos capítulos restantes.

Exercise 1: Introdução à validação de modelos Exercise 2: Etapas de modelagem Exercise 3: Dados vistos vs. não vistos Exercise 4: Modelos de regressão Exercise 5: Definir parâmetros e ajustar um modelo Exercise 6: Importância das variáveis Exercise 7: Modelos de classificação Exercise 8: Predições de classificação Exercise 9: Reutilizando parâmetros do modelo Exercise 10: Classificador random forest

Este capítulo foca nos fundamentos da validação de modelos. Desde dividir os dados em conjuntos de treinamento, validação e teste até construir o entendimento do trade-off viés-variância, vamos criar a base para as técnicas de validação K-Fold e Leave-One-Out praticadas no capítulo três.

Exercise 1: Criando conjuntos de dados de treino, teste e validação Exercise 2: Crie um conjunto de validação (holdout)Exercise 3: Crie dois conjuntos de holdout Exercise 4: Por que usar conjuntos de holdout Exercise 5: Métricas de acurácia: modelos de regressão Exercise 6: Erro absoluto médio Exercise 7: Erro quadrático médio Exercise 8: Desempenho em subconjuntos de dados Exercise 9: Métricas de classificação Exercise 10: Matrizes de confusão Exercise 11: Matrizes de confusão, novamente Exercise 12: Precisão vs. recall Exercise 13: O trade-off entre viés e variância Exercise 14: Erro por under/overfitting Exercise 15: Estou com underfitting?

Conjuntos de holdout são um ótimo começo para validar modelos. Porém, usar um único conjunto de treino e teste muitas vezes não é suficiente. A validação cruzada é considerada o padrão-ouro para validar o desempenho do modelo e é quase sempre usada ao ajustar hiperparâmetros. Este capítulo foca em realizar validação cruzada para validar o desempenho do modelo.

Exercise 1: Os problemas dos conjuntos de holdout Exercise 2: Duas amostras Exercise 3: Problemas potenciais Exercise 4: Validação cruzada Exercise 5: KFold() do scikit-learn

Exercício atual

Exercise 6: Usando índices do KFold Exercise 7: cross_val_score() do sklearn Exercise 8: Métodos do scikit-learn Exercise 9: Implementar cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Quando usar LOOCV Exercise 12: Leave-one-out cross-validation

Os três primeiros capítulos focaram em técnicas de validação de modelos. No capítulo 4, aplicamos essas técnicas — em especial a validação cruzada — enquanto aprendemos sobre ajuste de hiperparâmetros. Afinal, a validação de modelos torna o ajuste possível e nos ajuda a selecionar o melhor modelo no geral.

Exercise 1: Introdução ao ajuste de hiperparâmetros Exercise 2: Criando hiperparâmetros Exercise 3: Executando um modelo usando intervalos Exercise 4: RandomizedSearchCV Exercise 5: Preparando para o RandomizedSearch Exercise 6: Implementando RandomizedSearchCV Exercise 7: Selecionando seu modelo final Exercise 8: Melhor acurácia de classificação Exercise 9: Selecionando o melhor modelo em precisão Exercise 10: Curso concluído!