Selecionando o melhor modelo em precisão

Seu chefe se ofereceu para pagar para você assistir a três jogos esportivos neste ano. Dos 41 jogos em casa que o seu time favorito disputa, você quer garantir que irá a três jogos em casa que ele vai ganhar com certeza. Você constrói um modelo para decidir quais jogos o seu time vai vencer.

Para isso, você vai criar um algoritmo de busca aleatória e focar na precisão do modelo (para garantir as vitórias do seu time). Você também quer registrar seu melhor modelo e os melhores hiperparâmetros, para poder usá-los novamente no ano que vem (se o modelo se sair bem, claro). Você já decidiu usar o modelo de classificação de random forest rfc e gerou uma distribuição de parâmetros param_dist.

Este exercício faz parte do curso

Validação de Modelos em Python

Instruções do exercício

Crie um avaliador de precisão, precision, usando make_scorer(<scoring_function>).
Complete o método de busca aleatória usando rfc e param_dist.
Use rs.cv_results_ para imprimir as médias dos escores de teste.
Imprima o melhor escore geral.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from sklearn.metrics import precision_score, make_scorer

# Create a precision scorer
precision = ____(____)
# Finalize the random search
rs = RandomizedSearchCV(
  estimator=____, param_distributions=____,
  scoring = precision,
  cv=5, n_iter=10, random_state=1111)
rs.fit(X, y)

# print the mean test scores:
print('The accuracy for each run was: {}.'.format(rs.cv_results_['____']))
# print the best model score:
print('The best accuracy for a single model was: {}'.format(rs.____))

Editar e executar o código

Este exercício faz parte do curso

Validação de Modelos em Python

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Antes de validar modelos, precisamos entender como criá-los e trabalhar com eles. Este capítulo apresenta a execução de modelos de regressão e classificação no scikit-learn. Vamos usar essa base de construção de modelos ao longo dos capítulos restantes.

Exercise 1: Introdução à validação de modelos Exercise 2: Etapas de modelagem Exercise 3: Dados vistos vs. não vistos Exercise 4: Modelos de regressão Exercise 5: Definir parâmetros e ajustar um modelo Exercise 6: Importância das variáveis Exercise 7: Modelos de classificação Exercise 8: Predições de classificação Exercise 9: Reutilizando parâmetros do modelo Exercise 10: Classificador random forest

Este capítulo foca nos fundamentos da validação de modelos. Desde dividir os dados em conjuntos de treinamento, validação e teste até construir o entendimento do trade-off viés-variância, vamos criar a base para as técnicas de validação K-Fold e Leave-One-Out praticadas no capítulo três.

Exercise 1: Criando conjuntos de dados de treino, teste e validação Exercise 2: Crie um conjunto de validação (holdout)Exercise 3: Crie dois conjuntos de holdout Exercise 4: Por que usar conjuntos de holdout Exercise 5: Métricas de acurácia: modelos de regressão Exercise 6: Erro absoluto médio Exercise 7: Erro quadrático médio Exercise 8: Desempenho em subconjuntos de dados Exercise 9: Métricas de classificação Exercise 10: Matrizes de confusão Exercise 11: Matrizes de confusão, novamente Exercise 12: Precisão vs. recall Exercise 13: O trade-off entre viés e variância Exercise 14: Erro por under/overfitting Exercise 15: Estou com underfitting?

Conjuntos de holdout são um ótimo começo para validar modelos. Porém, usar um único conjunto de treino e teste muitas vezes não é suficiente. A validação cruzada é considerada o padrão-ouro para validar o desempenho do modelo e é quase sempre usada ao ajustar hiperparâmetros. Este capítulo foca em realizar validação cruzada para validar o desempenho do modelo.

Exercise 1: Os problemas dos conjuntos de holdout Exercise 2: Duas amostras Exercise 3: Problemas potenciais Exercise 4: Validação cruzada Exercise 5: KFold() do scikit-learn Exercise 6: Usando índices do KFold Exercise 7: cross_val_score() do sklearn Exercise 8: Métodos do scikit-learn Exercise 9: Implementar cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Quando usar LOOCV Exercise 12: Leave-one-out cross-validation

Os três primeiros capítulos focaram em técnicas de validação de modelos. No capítulo 4, aplicamos essas técnicas — em especial a validação cruzada — enquanto aprendemos sobre ajuste de hiperparâmetros. Afinal, a validação de modelos torna o ajuste possível e nos ajuda a selecionar o melhor modelo no geral.

Exercise 1: Introdução ao ajuste de hiperparâmetros Exercise 2: Criando hiperparâmetros Exercise 3: Executando um modelo usando intervalos Exercise 4: RandomizedSearchCV Exercise 5: Preparando para o RandomizedSearch Exercise 6: Implementando RandomizedSearchCV Exercise 7: Selecionando seu modelo final Exercise 8: Melhor acurácia de classificação Exercise 9: Selecionando o melhor modelo em precisão

Exercício atual

Exercise 10: Curso concluído!