Random forests

Los Random Forests son un método de conjunto clásico y potente que utiliza árboles de decisión individuales mediante agregación bootstrap (o bagging). Dos hiperparámetros principales en este tipo de modelo son el número de árboles y la profundidad máxima de cada árbol. En este ejercicio, implementarás y evaluarás un clasificador de random forest sencillo con algunos valores de hiperparámetros fijos.

X_train, y_train, X_test, y_test están disponibles en tu espacio de trabajo. pandas como pd, numpy como np y sklearn también están disponibles. RandomForestClassifier() de sklearn.ensemble está disponible, junto con roc_curve() y auc() de sklearn.metrics.

Este ejercicio forma parte del curso

Predicción del CTR con Machine Learning en Python

Instrucciones del ejercicio

Crea un clasificador de random forest con 50 árboles y una profundidad máxima de 5.
Entrena el clasificador y obtén las puntuaciones de probabilidad con .predict_proba() y las predicciones con .predict() para los datos de prueba.
Evalúa el AUC de la curva ROC del clasificador usando primero roc_curve() para calcular fpr y tpr, y luego auc() sobre el resultado.
Evalúa la precisión y el recall del clasificador.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create random forest classifier with specified params
clf = ____(____ = 50, ____ = 5)

# Train classifier - predict probability score and label
y_score = clf.____(X_train, y_train).____(X_test) 
y_pred = clf.____(X_train, y_train).____(X_test) 

# Get ROC curve metrics
fpr, tpr, thresholds = ____(y_test, y_score[:, 1])
print("ROC of AUC: %s"%(____(fpr, tpr)))

# Get precision and recall
precision = ____(y_test, y_pred, average = 'weighted')
recall = ____(y_test, y_pred, average = 'weighted')
print("Precision: %s, Recall: %s" %(precision, recall))

Editar y ejecutar código

Este ejercicio forma parte del curso

Predicción del CTR con Machine Learning en Python

IntermedioNivel de habilidad

4.9+

Empieza el curso gratis

Probablemente has llegado aquí porque hiciste clic en un enlace. En este capítulo, verás por qué las tasas de clics (CTR) son clave en la publicidad segmentada, cómo realizar manipulaciones básicas de DataFrame y cómo usar modelos de machine learning para predecir el CTR.

Exercise 1: Introducción a las tasas de clics (CTR)Exercise 2: Primeros pasos Exercise 3: Exploración de características Exercise 4: Primera evaluación de los datos Exercise 5: Resumen de modelos de Machine Learning Exercise 6: Regresión logística para cáncer de mama Exercise 7: Regresión logística para imágenes Exercise 8: Un segundo modelo de juguete Exercise 9: Predicción de CTR con árboles de decisión Exercise 10: Implementación del modelo Exercise 11: Tu primer modelo de CTR Exercise 12: Más allá de la precisión

Este capítulo sienta las bases del análisis exploratorio de datos (EDA). Con datos de ejemplo, usarás la biblioteca pandas para revisar columnas y tipos de datos, explorar valores ausentes y aplicar hashing para hacer feature engineering en variables categóricas. Todo ello es esencial al explorar variables para predecir el CTR con mayor precisión.

Exercise 1: Análisis exploratorio de datos Exercise 2: Una primera mirada Exercise 3: Comprobar valores faltantes Exercise 4: Distribuciones por CTR Exercise 5: Ingeniería de características Exercise 6: Analizar columnas de tipo datetime Exercise 7: Convertir variables categóricas Exercise 8: Creación de nuevas características Exercise 9: Estandarizar características Exercise 10: Normalización logarítmica Exercise 11: Entender la estandarización Exercise 12: Estandarización (standard scaling)

Toca profundizar. Descubre cómo usar métricas de rendimiento del modelo, como precisión (precision) y exhaustividad (recall), para responder preguntas reales, por ejemplo, evaluar el ROI del gasto en anuncios. También aprenderás formas de mejorar esas métricas de evaluación, como métodos de ensamblado (ensembles) y el ajuste de hiperparámetros.

Exercise 1: Aplicaciones de la evaluación de métricas Exercise 2: Cuatro categorías de resultados Exercise 3: Evaluar cuatro categorías Exercise 4: ROI del gasto en anuncios Exercise 5: Evaluación del modelo Exercise 6: Precisión y recall Exercise 7: Modelo de referencia Exercise 8: Comparación de clasificadores Exercise 9: Ajuste de modelos Exercise 10: Regularización Exercise 11: Validación cruzada Exercise 12: Selección de modelos Exercise 13: Ensembles y ajuste de hiperparámetros Exercise 14: Entender el ajuste de hiperparámetros Exercise 15: Random forests

Ejercicio actual

Exercise 16: Búsqueda en malla

Los beneficios pueden verse muy afectados por el CTR de tu campaña. En este capítulo, aprenderás cómo el deep learning puede ayudar a reducir ese riesgo. Te centrarás en perceptrones multicapa (MLP) y redes neuronales, y verás cómo capturan relaciones complejas entre variables para predecir el CTR con más precisión. Por último, explorarás cómo aplicar los fundamentos del ajuste de hiperparámetros y la regularización a modelos de clasificación.

Exercise 1: Introducción al deep learning Exercise 2: Entender los MLP Exercise 3: Modelo inicial Exercise 4: MLP para CTR Exercise 5: Ajuste de hiperparámetros en deep learning Exercise 6: Ajuste de hiperparámetros en MLP Exercise 7: Variar hiperparámetros Exercise 8: Búsqueda en cuadrícula con MLP Exercise 9: Evaluación del modelo Exercise 10: Puntuación F-beta Exercise 11: Baja precisión y AUC alta Exercise 12: Precisión, ROI y AUC Exercise 13: Revisión y comparación de modelos Exercise 14: Calentamiento: comparación de modelos Exercise 15: Evaluar la precisión y el ROI Exercise 16: Puntuación total Exercise 17: Vídeo de cierre