ComeçarComece de graça

Avaliando quatro categorias

A matriz de confusão é a ferramenta mais direta para observar as quatro categorias de resultados: verdadeiros positivos (TP), falsos positivos (FP), verdadeiros negativos (TN) e falsos negativos (FN). Neste exercício, você vai usar um classificador padrão de árvore de decisão DecisionTreeClassifier() do sklearn nos dados de cliques de exemplo e calcular a divisão dos resultados nas quatro categorias.

O módulo pandas está disponível como pd no seu ambiente e o DataFrame de exemplo está carregado como df. As variáveis de entrada estão em X e o alvo está em y para uso. Além disso, DecisionTreeClassifier de sklearn.tree está disponível.

Este exercício faz parte do curso

Prevendo CTR com Machine Learning em Python

Ver curso

Instruções do exercício

  • Obtenha as partições de treino e teste para X e y.
  • Defina um classificador de árvore de decisão e gere as previsões y_pred ajustando o modelo.
  • Use a matriz de confusão para obter as contagens das categorias de cada resultado, com 1 sendo positivo (clique) e 0 sendo negativo (não clique).
  • Por exemplo: verdadeiros negativos seriam [0,0] e verdadeiros positivos seriam [1,1].

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Set up classifier using training data to predict test data
X_train, X_test, y_train, y_test = ____(
  X, y, test_size = .2, random_state = 0)
clf = ____
y_pred = clf.____(X_train, y_train).____(X_test) 

# Define confusion matrix and four categories
conf_matrix = ____(y_test, y_pred)
tn = conf_matrix[____][____]
fp = conf_matrix[____][____]
fn = conf_matrix[____][____]
tp = conf_matrix[____][____]

print("TN: %s, FP: %s, FN: %s, TP: %s" %(tn, fp, fn, tp))
Editar e executar o código