Evaluar cuatro categorías

La matriz de confusión es la herramienta más directa para observar las cuatro categorías de resultados: verdaderos positivos (TP), falsos positivos (FP), verdaderos negativos (TN) y falsos negativos (FN). En este ejercicio, usarás un clasificador de árbol de decisión estándar DecisionTreeClassifier() de sklearn sobre los datos de clics de ejemplo y calcularás la distribución de resultados por las cuatro categorías.

El módulo pandas está disponible como pd en tu espacio de trabajo y el DataFrame de muestra está cargado como df. Las características están cargadas en X y el objetivo está cargado en y para su uso. Además, DecisionTreeClassifier de sklearn.tree está disponible.

Este ejercicio forma parte del curso

Predicción del CTR con Machine Learning en Python

Instrucciones del ejercicio

Obtén las divisiones de entrenamiento y prueba para X e y.
Define un clasificador de árbol de decisión y genera predicciones y_pred ajustando el modelo.
Usa la matriz de confusión para obtener los recuentos de las categorías de cada resultado, donde 1 es un positivo (clic) y 0 es un negativo (no clic).
Por ejemplo: los verdaderos negativos serían [0,0] y los verdaderos positivos serían [1,1].

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Set up classifier using training data to predict test data
X_train, X_test, y_train, y_test = ____(
  X, y, test_size = .2, random_state = 0)
clf = ____
y_pred = clf.____(X_train, y_train).____(X_test) 

# Define confusion matrix and four categories
conf_matrix = ____(y_test, y_pred)
tn = conf_matrix[____][____]
fp = conf_matrix[____][____]
fn = conf_matrix[____][____]
tp = conf_matrix[____][____]

print("TN: %s, FP: %s, FN: %s, TP: %s" %(tn, fp, fn, tp))

Editar y ejecutar código

Este ejercicio forma parte del curso

Predicción del CTR con Machine Learning en Python

IntermedioNivel de habilidad

5.0+

Comienza el curso gratis

Probablemente has llegado aquí porque hiciste clic en un enlace. En este capítulo, verás por qué las tasas de clics (CTR) son clave en la publicidad segmentada, cómo realizar manipulaciones básicas de DataFrame y cómo usar modelos de machine learning para predecir el CTR.

Exercise 1: Introducción a las tasas de clics (CTR)Exercise 2: Primeros pasos Exercise 3: Exploración de características Exercise 4: Primera evaluación de los datos Exercise 5: Resumen de modelos de Machine Learning Exercise 6: Regresión logística para cáncer de mama Exercise 7: Regresión logística para imágenes Exercise 8: Un segundo modelo de juguete Exercise 9: Predicción de CTR con árboles de decisión Exercise 10: Implementación del modelo Exercise 11: Tu primer modelo de CTR Exercise 12: Más allá de la precisión

Este capítulo sienta las bases del análisis exploratorio de datos (EDA). Con datos de ejemplo, usarás la biblioteca pandas para revisar columnas y tipos de datos, explorar valores ausentes y aplicar hashing para hacer feature engineering en variables categóricas. Todo ello es esencial al explorar variables para predecir el CTR con mayor precisión.

Exercise 1: Análisis exploratorio de datos Exercise 2: Una primera mirada Exercise 3: Comprobar valores faltantes Exercise 4: Distribuciones por CTR Exercise 5: Ingeniería de características Exercise 6: Analizar columnas de tipo datetime Exercise 7: Convertir variables categóricas Exercise 8: Creación de nuevas características Exercise 9: Estandarizar características Exercise 10: Normalización logarítmica Exercise 11: Entender la estandarización Exercise 12: Estandarización (standard scaling)

Toca profundizar. Descubre cómo usar métricas de rendimiento del modelo, como precisión (precision) y exhaustividad (recall), para responder preguntas reales, por ejemplo, evaluar el ROI del gasto en anuncios. También aprenderás formas de mejorar esas métricas de evaluación, como métodos de ensamblado (ensembles) y el ajuste de hiperparámetros.

Exercise 1: Aplicaciones de la evaluación de métricas Exercise 2: Cuatro categorías de resultados Exercise 3: Evaluar cuatro categorías

Ejercicio actual

Exercise 4: ROI del gasto en anuncios Exercise 5: Evaluación del modelo Exercise 6: Precisión y recall Exercise 7: Modelo de referencia Exercise 8: Comparación de clasificadores Exercise 9: Ajuste de modelos Exercise 10: Regularización Exercise 11: Validación cruzada Exercise 12: Selección de modelos Exercise 13: Ensembles y ajuste de hiperparámetros Exercise 14: Entender el ajuste de hiperparámetros Exercise 15: Random forests Exercise 16: Búsqueda en malla

Los beneficios pueden verse muy afectados por el CTR de tu campaña. En este capítulo, aprenderás cómo el deep learning puede ayudar a reducir ese riesgo. Te centrarás en perceptrones multicapa (MLP) y redes neuronales, y verás cómo capturan relaciones complejas entre variables para predecir el CTR con más precisión. Por último, explorarás cómo aplicar los fundamentos del ajuste de hiperparámetros y la regularización a modelos de clasificación.

Exercise 1: Introducción al deep learning Exercise 2: Entender los MLP Exercise 3: Modelo inicial Exercise 4: MLP para CTR Exercise 5: Ajuste de hiperparámetros en deep learning Exercise 6: Ajuste de hiperparámetros en MLP Exercise 7: Variar hiperparámetros Exercise 8: Búsqueda en cuadrícula con MLP Exercise 9: Evaluación del modelo Exercise 10: Puntuación F-beta Exercise 11: Baja precisión y AUC alta Exercise 12: Precisión, ROI y AUC Exercise 13: Revisión y comparación de modelos Exercise 14: Calentamiento: comparación de modelos Exercise 15: Evaluar la precisión y el ROI Exercise 16: Puntuación total Exercise 17: Vídeo de cierre