Avaliando quatro categorias
A matriz de confusão é a ferramenta mais direta para observar as quatro categorias de resultados: verdadeiros positivos (TP), falsos positivos (FP), verdadeiros negativos (TN) e falsos negativos (FN). Neste exercício, você vai usar um classificador padrão de árvore de decisão DecisionTreeClassifier() do sklearn nos dados de cliques de exemplo e calcular a divisão dos resultados nas quatro categorias.
O módulo pandas está disponível como pd no seu ambiente e o DataFrame de exemplo está carregado como df. As variáveis de entrada estão em X e o alvo está em y para uso. Além disso, DecisionTreeClassifier de sklearn.tree está disponível.
Este exercício faz parte do curso
Prevendo CTR com Machine Learning em Python
Instruções do exercício
- Obtenha as partições de treino e teste para
Xey. - Defina um classificador de árvore de decisão e gere as previsões
y_predajustando o modelo. - Use a matriz de confusão para obter as contagens das categorias de cada resultado, com
1sendo positivo (clique) e0sendo negativo (não clique). - Por exemplo: verdadeiros negativos seriam
[0,0]e verdadeiros positivos seriam[1,1].
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Set up classifier using training data to predict test data
X_train, X_test, y_train, y_test = ____(
X, y, test_size = .2, random_state = 0)
clf = ____
y_pred = clf.____(X_train, y_train).____(X_test)
# Define confusion matrix and four categories
conf_matrix = ____(y_test, y_pred)
tn = conf_matrix[____][____]
fp = conf_matrix[____][____]
fn = conf_matrix[____][____]
tp = conf_matrix[____][____]
print("TN: %s, FP: %s, FN: %s, TP: %s" %(tn, fp, fn, tp))