Validação cruzada

Validação cruzada é uma técnica que tenta verificar o desempenho do modelo em dados de holdout. Ela é usada para garantir que o desempenho no teste não foi causado por algum problema específico na divisão dos dados. Neste exercício, você vai usar implementações do sklearn para rodar uma validação cruzada K-fold usando o módulo KFold() para avaliar precisão e recall de uma árvore de decisão.

X_train, y_train, X_test, y_test estão disponíveis no seu workspace. pandas como pd, numpy como np e sklearn também estão disponíveis no seu workspace. KFold() e cross_val_score() de sklearn.model_selection também estão disponíveis.

Este exercício faz parte do curso

Prevendo CTR com Machine Learning em Python

Instruções do exercício

Crie um classificador de árvore de decisão.
Configure uma validação cruzada K-Fold com quatro divisões e atribua-a a k-fold.
Use k_fold para rodar a validação cruzada com cross_val_score() para avaliar a precisão e o recall do seu modelo (e não usando recall_score() ou precision_score()!).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create model 
clf = ____

# Set up k-fold
k_fold = ____(n_splits = 4, random_state = 0, shuffle = True)

# Evaluate precision and recall for each fold
precision = ____(
  clf, X_train, ____, cv = ____, scoring = 'precision_weighted')
recall = ____(
  clf, X_train, ____, cv = ____, scoring = 'recall_weighted')
print("Precision scores: %s" %(precision)) 
print("Recall scores: %s" %(recall))

Editar e executar o código

Este exercício faz parte do curso

Prevendo CTR com Machine Learning em Python

IntermediárioNível de habilidade

5.0+

Iniciar curso de graça

Provavelmente você chegou até aqui porque clicou em um link. Neste capítulo, você vai entender por que as taxas de cliques (CTR) são essenciais para a publicidade direcionada, como fazer manipulações básicas de DataFrame, e como usar modelos de Machine Learning para prever CTR.

Exercise 1: Introdução às taxas de cliques (CTR)Exercise 2: Primeiros passos Exercise 3: Exploração de features Exercise 4: Primeira avaliação dos dados Exercise 5: Visão geral dos modelos de Machine Learning Exercise 6: Regressão logística para câncer de mama Exercise 7: Regressão logística para imagens Exercise 8: Um segundo modelo simples Exercise 9: Previsão de CTR usando árvores de decisão Exercise 10: Implementação do modelo Exercise 11: Seu primeiro modelo de CTR Exercise 12: Além da acurácia

Este capítulo apresenta as bases da análise exploratória de dados (EDA). Com dados de exemplo, você vai usar a biblioteca pandas para examinar colunas e tipos de dados, explorar dados ausentes e aplicar hashing para fazer engenharia de features em variáveis categóricas. Tudo isso é importante ao explorar features para previsões de CTR mais precisas.

Exercise 1: Análise exploratória de dados Exercise 2: Um primeiro olhar Exercise 3: Verificando valores ausentes Exercise 4: Distribuições por CTR Exercise 5: Engenharia de atributos Exercise 6: Analisando colunas de datetime Exercise 7: Convertendo variáveis categóricas Exercise 8: Criando novas features Exercise 9: Padronizando recursos Exercise 10: Normalização logarítmica Exercise 11: Entendendo a padronização Exercise 12: Padronização (standard scaling)

Hora de ir mais fundo. Veja como usar medidas de desempenho do modelo, incluindo precisão e recall, para responder a perguntas do mundo real, como avaliar o ROI do gasto com anúncios. Você também vai aprender formas de melhorar essas métricas de avaliação, como métodos de ensemble e ajuste de hiperparâmetros.

Exercise 1: Aplicações da avaliação de métricas Exercise 2: Quatro categorias de resultados Exercise 3: Avaliando quatro categorias Exercise 4: ROI em gastos com anúncios Exercise 5: Avaliação de modelos Exercise 6: Precisão e revocação Exercise 7: Baseline Exercise 8: Comparação de classificadores Exercise 9: Ajustando modelos Exercise 10: Regularização Exercise 11: Validação cruzada

Exercício atual

Exercise 12: Seleção de modelo Exercise 13: Ensembles e ajuste de hiperparâmetros Exercise 14: Entendendo o ajuste de hiperparâmetros Exercise 15: Random forests Exercise 16: Busca em grade

Os lucros podem ser fortemente impactados pelo CTR da sua campanha. Neste capítulo, você vai aprender como deep learning pode ajudar a reduzir esse risco. O foco será em perceptron multicamadas (MLP) e redes neurais, e em como esses modelos capturam relações complexas entre variáveis para prever o CTR com mais precisão. Por fim, você vai explorar como aplicar noções básicas de ajuste de hiperparâmetros e regularização em modelos de classificação.

Exercise 1: Introdução ao deep learning Exercise 2: Entendendo MLPs Exercise 3: Modelo inicial Exercise 4: MLPs para CTR Exercise 5: Ajuste de hiperparâmetros em deep learning Exercise 6: Ajuste de hiperparâmetros em MLPs Exercise 7: Variando hiperparâmetros Exercise 8: Busca em grade para MLP Exercise 9: Avaliação do modelo Exercise 10: Pontuação F-beta Exercise 11: Baixa precisão e AUC alta Exercise 12: Precisão, ROI e AUC Exercise 13: Revisão e comparação de modelos Exercise 14: Aquecimento: comparação de modelos Exercise 15: Avaliando precisão e ROI Exercise 16: Pontuação total Exercise 17: Vídeo de encerramento