Evaluar cuatro categorías
La matriz de confusión es la herramienta más directa para observar las cuatro categorías de resultados: verdaderos positivos (TP), falsos positivos (FP), verdaderos negativos (TN) y falsos negativos (FN). En este ejercicio, usarás un clasificador de árbol de decisión estándar DecisionTreeClassifier() de sklearn sobre los datos de clics de ejemplo y calcularás la distribución de resultados por las cuatro categorías.
El módulo pandas está disponible como pd en tu espacio de trabajo y el DataFrame de muestra está cargado como df. Las características están cargadas en X y el objetivo está cargado en y para su uso. Además, DecisionTreeClassifier de sklearn.tree está disponible.
Este ejercicio forma parte del curso
Predicción del CTR con Machine Learning en Python
Instrucciones del ejercicio
- Obtén las divisiones de entrenamiento y prueba para
Xey. - Define un clasificador de árbol de decisión y genera predicciones
y_predajustando el modelo. - Usa la matriz de confusión para obtener los recuentos de las categorías de cada resultado, donde
1es un positivo (clic) y0es un negativo (no clic). - Por ejemplo: los verdaderos negativos serían
[0,0]y los verdaderos positivos serían[1,1].
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Set up classifier using training data to predict test data
X_train, X_test, y_train, y_test = ____(
X, y, test_size = .2, random_state = 0)
clf = ____
y_pred = clf.____(X_train, y_train).____(X_test)
# Define confusion matrix and four categories
conf_matrix = ____(y_test, y_pred)
tn = conf_matrix[____][____]
fp = conf_matrix[____][____]
fn = conf_matrix[____][____]
tp = conf_matrix[____][____]
print("TN: %s, FP: %s, FN: %s, TP: %s" %(tn, fp, fn, tp))