Validación cruzada

La validación cruzada es una técnica que intenta estimar el rendimiento del modelo en un conjunto de validación. Se usa para asegurar que el rendimiento en test no se deba a un problema particular en el reparto de los datos. En este ejercicio, usarás implementaciones de sklearn para ejecutar una validación cruzada K-fold con el módulo KFold() y así evaluar la precisión (precision) y el recall de un árbol de decisión.

X_train, y_train, X_test, y_test están disponibles en tu espacio de trabajo. pandas como pd, numpy como np y sklearn también están disponibles. KFold() y cross_val_score() de sklearn.model_selection también están disponibles.

Este ejercicio forma parte del curso

Predicción del CTR con Machine Learning en Python

Instrucciones del ejercicio

Crea un clasificador de árbol de decisión.
Configura una validación cruzada K-Fold con cuatro particiones y asígnala a k-fold.
Usa k_fold para ejecutar la validación cruzada con cross_val_score() y evaluar la precision y el recall de tu modelo (¡y no usar recall_score() ni precision_score()!).

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create model 
clf = ____

# Set up k-fold
k_fold = ____(n_splits = 4, random_state = 0, shuffle = True)

# Evaluate precision and recall for each fold
precision = ____(
  clf, X_train, ____, cv = ____, scoring = 'precision_weighted')
recall = ____(
  clf, X_train, ____, cv = ____, scoring = 'recall_weighted')
print("Precision scores: %s" %(precision)) 
print("Recall scores: %s" %(recall))

Editar y ejecutar código

Este ejercicio forma parte del curso

Predicción del CTR con Machine Learning en Python

IntermedioNivel de habilidad

5.0+

Comienza el curso gratis

Probablemente has llegado aquí porque hiciste clic en un enlace. En este capítulo, verás por qué las tasas de clics (CTR) son clave en la publicidad segmentada, cómo realizar manipulaciones básicas de DataFrame y cómo usar modelos de machine learning para predecir el CTR.

Exercise 1: Introducción a las tasas de clics (CTR)Exercise 2: Primeros pasos Exercise 3: Exploración de características Exercise 4: Primera evaluación de los datos Exercise 5: Resumen de modelos de Machine Learning Exercise 6: Regresión logística para cáncer de mama Exercise 7: Regresión logística para imágenes Exercise 8: Un segundo modelo de juguete Exercise 9: Predicción de CTR con árboles de decisión Exercise 10: Implementación del modelo Exercise 11: Tu primer modelo de CTR Exercise 12: Más allá de la precisión

Este capítulo sienta las bases del análisis exploratorio de datos (EDA). Con datos de ejemplo, usarás la biblioteca pandas para revisar columnas y tipos de datos, explorar valores ausentes y aplicar hashing para hacer feature engineering en variables categóricas. Todo ello es esencial al explorar variables para predecir el CTR con mayor precisión.

Exercise 1: Análisis exploratorio de datos Exercise 2: Una primera mirada Exercise 3: Comprobar valores faltantes Exercise 4: Distribuciones por CTR Exercise 5: Ingeniería de características Exercise 6: Analizar columnas de tipo datetime Exercise 7: Convertir variables categóricas Exercise 8: Creación de nuevas características Exercise 9: Estandarizar características Exercise 10: Normalización logarítmica Exercise 11: Entender la estandarización Exercise 12: Estandarización (standard scaling)

Toca profundizar. Descubre cómo usar métricas de rendimiento del modelo, como precisión (precision) y exhaustividad (recall), para responder preguntas reales, por ejemplo, evaluar el ROI del gasto en anuncios. También aprenderás formas de mejorar esas métricas de evaluación, como métodos de ensamblado (ensembles) y el ajuste de hiperparámetros.

Exercise 1: Aplicaciones de la evaluación de métricas Exercise 2: Cuatro categorías de resultados Exercise 3: Evaluar cuatro categorías Exercise 4: ROI del gasto en anuncios Exercise 5: Evaluación del modelo Exercise 6: Precisión y recall Exercise 7: Modelo de referencia Exercise 8: Comparación de clasificadores Exercise 9: Ajuste de modelos Exercise 10: Regularización Exercise 11: Validación cruzada

Ejercicio actual

Exercise 12: Selección de modelos Exercise 13: Ensembles y ajuste de hiperparámetros Exercise 14: Entender el ajuste de hiperparámetros Exercise 15: Random forests Exercise 16: Búsqueda en malla

Los beneficios pueden verse muy afectados por el CTR de tu campaña. En este capítulo, aprenderás cómo el deep learning puede ayudar a reducir ese riesgo. Te centrarás en perceptrones multicapa (MLP) y redes neuronales, y verás cómo capturan relaciones complejas entre variables para predecir el CTR con más precisión. Por último, explorarás cómo aplicar los fundamentos del ajuste de hiperparámetros y la regularización a modelos de clasificación.

Exercise 1: Introducción al deep learning Exercise 2: Entender los MLP Exercise 3: Modelo inicial Exercise 4: MLP para CTR Exercise 5: Ajuste de hiperparámetros en deep learning Exercise 6: Ajuste de hiperparámetros en MLP Exercise 7: Variar hiperparámetros Exercise 8: Búsqueda en cuadrícula con MLP Exercise 9: Evaluación del modelo Exercise 10: Puntuación F-beta Exercise 11: Baja precisión y AUC alta Exercise 12: Precisión, ROI y AUC Exercise 13: Revisión y comparación de modelos Exercise 14: Calentamiento: comparación de modelos Exercise 15: Evaluar la precisión y el ROI Exercise 16: Puntuación total Exercise 17: Vídeo de cierre