Crie dois conjuntos de holdout

Recentemente, você criou um modelo simples de random forest para prever vitórias no jogo da velha (Tic-Tac-Toe) para sua chefe e, a pedido dela, você não fez ajuste de parâmetros. Infelizmente, a acurácia geral do modelo ficou abaixo do esperado por ela. Desta vez, ela pediu para você focar no desempenho do modelo.

Antes de começar a testar diferentes modelos e conjuntos de parâmetros, você precisará dividir os dados em conjuntos de treinamento, validação e teste. Lembre-se de que, depois de dividir os dados em treinamento e teste, o conjunto de validação é criado a partir de uma divisão do conjunto de treinamento.

Os conjuntos X e y já foram carregados para você usar.

Este exercicio faz parte do curso

Validação de Modelos em Python

Instruções do exercicio

Crie conjuntos temporários e de teste (X_test, y_test). Use 20% do total de dados para os conjuntos de teste.
Usando os conjuntos temporários (X_temp, y_temp), crie os conjuntos de treinamento (X_train, y_train) e validação (X_val, y_val).
Use 25% dos dados temporários para os conjuntos de validação.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____  =\
    train_test_split(X, y, ____=____, random_state=1111)

# Create the final training and validation datasets
____, ____, ____, ____ =\
    train_test_split(X_temp, y_temp, ____=____, random_state=1111)

Editar e Executar Código

Este exercicio faz parte do curso

Validação de Modelos em Python

IntermediárioNível de habilidade

4.9+

Comece o curso gratuitamente

Antes de validar modelos, precisamos entender como criá-los e trabalhar com eles. Este capítulo apresenta a execução de modelos de regressão e classificação no scikit-learn. Vamos usar essa base de construção de modelos ao longo dos capítulos restantes.

Exercise 1: Introdução à validação de modelos Exercise 2: Etapas de modelagem Exercise 3: Dados vistos vs. não vistos Exercise 4: Modelos de regressão Exercise 5: Definir parâmetros e ajustar um modelo Exercise 6: Importância das variáveis Exercise 7: Modelos de classificação Exercise 8: Predições de classificação Exercise 9: Reutilizando parâmetros do modelo Exercise 10: Classificador random forest

Este capítulo foca nos fundamentos da validação de modelos. Desde dividir os dados em conjuntos de treinamento, validação e teste até construir o entendimento do trade-off viés-variância, vamos criar a base para as técnicas de validação K-Fold e Leave-One-Out praticadas no capítulo três.

Exercise 1: Criando conjuntos de dados de treino, teste e validação Exercise 2: Crie um conjunto de validação (holdout)Exercise 3: Crie dois conjuntos de holdout

Exercicio Atual

Exercise 4: Por que usar conjuntos de holdout Exercise 5: Métricas de acurácia: modelos de regressão Exercise 6: Erro absoluto médio Exercise 7: Erro quadrático médio Exercise 8: Desempenho em subconjuntos de dados Exercise 9: Métricas de classificação Exercise 10: Matrizes de confusão Exercise 11: Matrizes de confusão, novamente Exercise 12: Precisão vs. recall Exercise 13: O trade-off entre viés e variância Exercise 14: Erro por under/overfitting Exercise 15: Estou com underfitting?

Conjuntos de holdout são um ótimo começo para validar modelos. Porém, usar um único conjunto de treino e teste muitas vezes não é suficiente. A validação cruzada é considerada o padrão-ouro para validar o desempenho do modelo e é quase sempre usada ao ajustar hiperparâmetros. Este capítulo foca em realizar validação cruzada para validar o desempenho do modelo.

Exercise 1: Os problemas dos conjuntos de holdout Exercise 2: Duas amostras Exercise 3: Problemas potenciais Exercise 4: Validação cruzada Exercise 5: KFold() do scikit-learn Exercise 6: Usando índices do KFold Exercise 7: cross_val_score() do sklearn Exercise 8: Métodos do scikit-learn Exercise 9: Implementar cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Quando usar LOOCV Exercise 12: Leave-one-out cross-validation

Os três primeiros capítulos focaram em técnicas de validação de modelos. No capítulo 4, aplicamos essas técnicas — em especial a validação cruzada — enquanto aprendemos sobre ajuste de hiperparâmetros. Afinal, a validação de modelos torna o ajuste possível e nos ajuda a selecionar o melhor modelo no geral.

Exercise 1: Introdução ao ajuste de hiperparâmetros Exercise 2: Criando hiperparâmetros Exercise 3: Executando um modelo usando intervalos Exercise 4: RandomizedSearchCV Exercise 5: Preparando para o RandomizedSearch Exercise 6: Implementando RandomizedSearchCV Exercise 7: Selecionando seu modelo final Exercise 8: Melhor acurácia de classificação Exercise 9: Selecionando o melhor modelo em precisão Exercise 10: Curso concluído!