Selección de modelos

La regularización y la validación cruzada son herramientas muy potentes para la selección de modelos. La regularización ayuda a evitar el sobreajuste y la validación cruzada garantiza que tus modelos se evalúen correctamente. En este ejercicio, usarás regularización y validación cruzada conjuntamente y verás si los modelos difieren de forma significativa o no. Calcularás solo la precisión, aunque el mismo ejercicio puede hacerse fácilmente para el recall y otras métricas de evaluación.

X_train, y_train, X_test, y_test están disponibles en tu espacio de trabajo. pandas como pd, numpy como np y sklearn también están disponibles. Tanto precision_score() como recall_score() de sklearn.metrics están disponibles, así como KFold() y cross_val_score() de sklearn.model_selection.

Este ejercicio forma parte del curso

Predicción del CTR con Machine Learning en Python

Instrucciones del ejercicio

Configura una validación cruzada K-Fold con cuatro particiones usando n_splits y asígnala a k-fold.
Crea un clasificador de árbol de decisión.
Usa k_fold para ejecutar la validación cruzada y evalúa la precisión y el recall de tu modelo de árbol de decisión para el valor de max_depth dado.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Iterate over different levels of max depth and set up k-fold
for max_depth_val in [3, 5, 10]:
  k_fold = ____(____ = 4, random_state = 0, shuffle = True)
  clf = ____(____ = max_depth_val)
  print("Evaluating Decision Tree for max_depth = %s" %(max_depth_val))
  y_pred = clf.fit(____, ____).predict(____) 
  
  # Calculate precision for cross validation and test
  cv_precision = ____(
    ____, X_train, y_train, cv = k_fold, scoring = 'precision_weighted')
  precision = ____(y_test, y_pred, average = 'weighted')
  print("Cross validation Precision: %s" %(cv_precision))
  print("Test Precision: %s" %(precision))

Editar y ejecutar código

Este ejercicio forma parte del curso

Predicción del CTR con Machine Learning en Python

IntermedioNivel de habilidad

5.0+

Comienza el curso gratis

Probablemente has llegado aquí porque hiciste clic en un enlace. En este capítulo, verás por qué las tasas de clics (CTR) son clave en la publicidad segmentada, cómo realizar manipulaciones básicas de DataFrame y cómo usar modelos de machine learning para predecir el CTR.

Exercise 1: Introducción a las tasas de clics (CTR)Exercise 2: Primeros pasos Exercise 3: Exploración de características Exercise 4: Primera evaluación de los datos Exercise 5: Resumen de modelos de Machine Learning Exercise 6: Regresión logística para cáncer de mama Exercise 7: Regresión logística para imágenes Exercise 8: Un segundo modelo de juguete Exercise 9: Predicción de CTR con árboles de decisión Exercise 10: Implementación del modelo Exercise 11: Tu primer modelo de CTR Exercise 12: Más allá de la precisión

Este capítulo sienta las bases del análisis exploratorio de datos (EDA). Con datos de ejemplo, usarás la biblioteca pandas para revisar columnas y tipos de datos, explorar valores ausentes y aplicar hashing para hacer feature engineering en variables categóricas. Todo ello es esencial al explorar variables para predecir el CTR con mayor precisión.

Exercise 1: Análisis exploratorio de datos Exercise 2: Una primera mirada Exercise 3: Comprobar valores faltantes Exercise 4: Distribuciones por CTR Exercise 5: Ingeniería de características Exercise 6: Analizar columnas de tipo datetime Exercise 7: Convertir variables categóricas Exercise 8: Creación de nuevas características Exercise 9: Estandarizar características Exercise 10: Normalización logarítmica Exercise 11: Entender la estandarización Exercise 12: Estandarización (standard scaling)

Toca profundizar. Descubre cómo usar métricas de rendimiento del modelo, como precisión (precision) y exhaustividad (recall), para responder preguntas reales, por ejemplo, evaluar el ROI del gasto en anuncios. También aprenderás formas de mejorar esas métricas de evaluación, como métodos de ensamblado (ensembles) y el ajuste de hiperparámetros.

Exercise 1: Aplicaciones de la evaluación de métricas Exercise 2: Cuatro categorías de resultados Exercise 3: Evaluar cuatro categorías Exercise 4: ROI del gasto en anuncios Exercise 5: Evaluación del modelo Exercise 6: Precisión y recall Exercise 7: Modelo de referencia Exercise 8: Comparación de clasificadores Exercise 9: Ajuste de modelos Exercise 10: Regularización Exercise 11: Validación cruzada Exercise 12: Selección de modelos

Ejercicio actual

Exercise 13: Ensembles y ajuste de hiperparámetros Exercise 14: Entender el ajuste de hiperparámetros Exercise 15: Random forests Exercise 16: Búsqueda en malla

Los beneficios pueden verse muy afectados por el CTR de tu campaña. En este capítulo, aprenderás cómo el deep learning puede ayudar a reducir ese riesgo. Te centrarás en perceptrones multicapa (MLP) y redes neuronales, y verás cómo capturan relaciones complejas entre variables para predecir el CTR con más precisión. Por último, explorarás cómo aplicar los fundamentos del ajuste de hiperparámetros y la regularización a modelos de clasificación.

Exercise 1: Introducción al deep learning Exercise 2: Entender los MLP Exercise 3: Modelo inicial Exercise 4: MLP para CTR Exercise 5: Ajuste de hiperparámetros en deep learning Exercise 6: Ajuste de hiperparámetros en MLP Exercise 7: Variar hiperparámetros Exercise 8: Búsqueda en cuadrícula con MLP Exercise 9: Evaluación del modelo Exercise 10: Puntuación F-beta Exercise 11: Baja precisión y AUC alta Exercise 12: Precisión, ROI y AUC Exercise 13: Revisión y comparación de modelos Exercise 14: Calentamiento: comparación de modelos Exercise 15: Evaluar la precisión y el ROI Exercise 16: Puntuación total Exercise 17: Vídeo de cierre