Seleção de modelo

Tanto a regularização quanto a validação cruzada são ferramentas poderosas na seleção de modelos. A regularização ajuda a evitar overfitting, e a validação cruzada garante que seus modelos sejam avaliados corretamente. Neste exercício, você vai usar regularização e validação cruzada juntas e verificar se os modelos diferem significativamente ou não. Você vai calcular apenas a precisão (precision), embora o mesmo exercício possa ser feito facilmente para recall e outras métricas de avaliação.

X_train, y_train, X_test, y_test estão disponíveis no seu ambiente. pandas como pd, numpy como np e sklearn também estão disponíveis. Tanto precision_score() quanto recall_score() de sklearn.metrics estão disponíveis, assim como KFold() e cross_val_score() de sklearn.model_selection.

Este exercício faz parte do curso

Prevendo CTR com Machine Learning em Python

Instruções do exercício

Configure uma validação cruzada K-Fold com quatro divisões usando n_splits e atribua a k-fold.
Crie um classificador de árvore de decisão.
Use k_fold para executar a validação cruzada e avaliar a precisão (precision) e o recall do seu modelo de árvore de decisão para o valor de max_depth fornecido.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Iterate over different levels of max depth and set up k-fold
for max_depth_val in [3, 5, 10]:
  k_fold = ____(____ = 4, random_state = 0, shuffle = True)
  clf = ____(____ = max_depth_val)
  print("Evaluating Decision Tree for max_depth = %s" %(max_depth_val))
  y_pred = clf.fit(____, ____).predict(____) 
  
  # Calculate precision for cross validation and test
  cv_precision = ____(
    ____, X_train, y_train, cv = k_fold, scoring = 'precision_weighted')
  precision = ____(y_test, y_pred, average = 'weighted')
  print("Cross validation Precision: %s" %(cv_precision))
  print("Test Precision: %s" %(precision))

Editar e executar o código

Este exercício faz parte do curso

Prevendo CTR com Machine Learning em Python

IntermediárioNível de habilidade

5.0+

Iniciar curso de graça

Provavelmente você chegou até aqui porque clicou em um link. Neste capítulo, você vai entender por que as taxas de cliques (CTR) são essenciais para a publicidade direcionada, como fazer manipulações básicas de DataFrame, e como usar modelos de Machine Learning para prever CTR.

Exercise 1: Introdução às taxas de cliques (CTR)Exercise 2: Primeiros passos Exercise 3: Exploração de features Exercise 4: Primeira avaliação dos dados Exercise 5: Visão geral dos modelos de Machine Learning Exercise 6: Regressão logística para câncer de mama Exercise 7: Regressão logística para imagens Exercise 8: Um segundo modelo simples Exercise 9: Previsão de CTR usando árvores de decisão Exercise 10: Implementação do modelo Exercise 11: Seu primeiro modelo de CTR Exercise 12: Além da acurácia

Este capítulo apresenta as bases da análise exploratória de dados (EDA). Com dados de exemplo, você vai usar a biblioteca pandas para examinar colunas e tipos de dados, explorar dados ausentes e aplicar hashing para fazer engenharia de features em variáveis categóricas. Tudo isso é importante ao explorar features para previsões de CTR mais precisas.

Exercise 1: Análise exploratória de dados Exercise 2: Um primeiro olhar Exercise 3: Verificando valores ausentes Exercise 4: Distribuições por CTR Exercise 5: Engenharia de atributos Exercise 6: Analisando colunas de datetime Exercise 7: Convertendo variáveis categóricas Exercise 8: Criando novas features Exercise 9: Padronizando recursos Exercise 10: Normalização logarítmica Exercise 11: Entendendo a padronização Exercise 12: Padronização (standard scaling)

Hora de ir mais fundo. Veja como usar medidas de desempenho do modelo, incluindo precisão e recall, para responder a perguntas do mundo real, como avaliar o ROI do gasto com anúncios. Você também vai aprender formas de melhorar essas métricas de avaliação, como métodos de ensemble e ajuste de hiperparâmetros.

Exercise 1: Aplicações da avaliação de métricas Exercise 2: Quatro categorias de resultados Exercise 3: Avaliando quatro categorias Exercise 4: ROI em gastos com anúncios Exercise 5: Avaliação de modelos Exercise 6: Precisão e revocação Exercise 7: Baseline Exercise 8: Comparação de classificadores Exercise 9: Ajustando modelos Exercise 10: Regularização Exercise 11: Validação cruzada Exercise 12: Seleção de modelo

Exercício atual

Exercise 13: Ensembles e ajuste de hiperparâmetros Exercise 14: Entendendo o ajuste de hiperparâmetros Exercise 15: Random forests Exercise 16: Busca em grade

Os lucros podem ser fortemente impactados pelo CTR da sua campanha. Neste capítulo, você vai aprender como deep learning pode ajudar a reduzir esse risco. O foco será em perceptron multicamadas (MLP) e redes neurais, e em como esses modelos capturam relações complexas entre variáveis para prever o CTR com mais precisão. Por fim, você vai explorar como aplicar noções básicas de ajuste de hiperparâmetros e regularização em modelos de classificação.

Exercise 1: Introdução ao deep learning Exercise 2: Entendendo MLPs Exercise 3: Modelo inicial Exercise 4: MLPs para CTR Exercise 5: Ajuste de hiperparâmetros em deep learning Exercise 6: Ajuste de hiperparâmetros em MLPs Exercise 7: Variando hiperparâmetros Exercise 8: Busca em grade para MLP Exercise 9: Avaliação do modelo Exercise 10: Pontuação F-beta Exercise 11: Baixa precisão e AUC alta Exercise 12: Precisão, ROI e AUC Exercise 13: Revisão e comparação de modelos Exercise 14: Aquecimento: comparação de modelos Exercise 15: Avaliando precisão e ROI Exercise 16: Pontuação total Exercise 17: Vídeo de encerramento