Seleccionar el mejor modelo por precisión

Tu jefa se ha ofrecido a pagarte para que veas tres partidos deportivos este año. De los 41 partidos en casa que juega tu equipo favorito, quieres asegurarte de ir a tres en casa que vayan a ganar con toda seguridad. Has creado un modelo para decidir qué partidos ganará tu equipo.

Para ello, vas a construir un algoritmo de búsqueda aleatoria y te centrarás en la precisión del modelo (para garantizar que tu equipo gane). También quieres guardar tu mejor modelo y sus mejores hiperparámetros, para poder reutilizarlos el año que viene (si el modelo funciona bien, claro). Ya has decidido usar el clasificador de random forest rfc y has generado una distribución de parámetros param_dist.

Este ejercicio forma parte del curso

Validación de modelos en Python

Instrucciones del ejercicio

Crea un evaluador de precisión, precision, usando make_scorer(<scoring_function>).
Completa el método de búsqueda aleatoria utilizando rfc y param_dist.
Usa rs.cv_results_ para imprimir las puntuaciones medias del test.
Imprime la mejor puntuación global.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

from sklearn.metrics import precision_score, make_scorer

# Create a precision scorer
precision = ____(____)
# Finalize the random search
rs = RandomizedSearchCV(
  estimator=____, param_distributions=____,
  scoring = precision,
  cv=5, n_iter=10, random_state=1111)
rs.fit(X, y)

# print the mean test scores:
print('The accuracy for each run was: {}.'.format(rs.cv_results_['____']))
# print the best model score:
print('The best accuracy for a single model was: {}'.format(rs.____))

Editar y ejecutar código

Este ejercicio forma parte del curso

Validación de modelos en Python

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

Antes de poder validar modelos, necesitamos entender cómo crearlos y trabajar con ellos. Este capítulo ofrece una introducción a la ejecución de modelos de regresión y clasificación en scikit-learn. Usaremos estos fundamentos de construcción de modelos a lo largo del resto de capítulos.

Exercise 1: Introducción a la validación de modelos Exercise 2: Pasos de modelado Exercise 3: Datos vistos vs. no vistos Exercise 4: Modelos de regresión Exercise 5: Configura parámetros y ajusta un modelo Exercise 6: Importancia de las variables Exercise 7: Modelos de clasificación Exercise 8: Predicciones de clasificación Exercise 9: Reutilizar parámetros del modelo Exercise 10: Clasificador de random forest

Este capítulo se centra en los conceptos básicos de la validación de modelos. Desde dividir los datos en conjuntos de entrenamiento, validación y prueba, hasta comprender el equilibrio sesgo-varianza, sentamos las bases para las técnicas de validación K-Fold y Leave-One-Out que practicarás en el capítulo tres.

Exercise 1: Crear conjuntos de datos de entrenamiento, prueba y validación Exercise 2: Crea un único conjunto holdout Exercise 3: Crea dos conjuntos de validación (holdout)Exercise 4: Por qué usar conjuntos holdout Exercise 5: Métricas de precisión: modelos de regresión Exercise 6: Error absoluto medio Exercise 7: Error cuadrático medio Exercise 8: Rendimiento por subconjuntos de datos Exercise 9: Métricas de clasificación Exercise 10: Matrices de confusión Exercise 11: Otra vez las matrices de confusión Exercise 12: Precisión vs. exhaustividad Exercise 13: El compromiso entre sesgo y varianza Exercise 14: Error por underfitting/overfitting Exercise 15: ¿Estoy subajustando?

Los conjuntos de retención son un gran punto de partida para la validación de modelos. Sin embargo, usar un único conjunto de entrenamiento y prueba a menudo no basta. La validación cruzada se considera el estándar de oro para validar el rendimiento de los modelos y casi siempre se usa al ajustar hiperparámetros. Este capítulo se centra en realizar validación cruzada para validar el rendimiento del modelo.

Exercise 1: Los problemas de los conjuntos holdout Exercise 2: Dos muestras Exercise 3: Problemas potenciales Exercise 4: Validación cruzada Exercise 5: `KFold()` de scikit-learn Exercise 6: Usar índices de KFold Exercise 7: cross_val_score() de sklearn Exercise 8: Métodos de scikit-learn Exercise 9: Implementa cross_val_score()Exercise 10: Validación cruzada dejando uno fuera (LOOCV)Exercise 11: Cuándo usar LOOCV Exercise 12: Leave-one-out-cross-validation

Los tres primeros capítulos se centraron en técnicas de validación de modelos. En el capítulo 4 aplicamos estas técnicas, en particular la validación cruzada, mientras aprendemos sobre el ajuste de hiperparámetros. Al fin y al cabo, la validación de modelos hace posible el ajuste y nos ayuda a seleccionar el mejor modelo general.

Exercise 1: Introducción al ajuste de hiperparámetros Exercise 2: Creación de hiperparámetros Exercise 3: Ejecutar un modelo usando rangos Exercise 4: RandomizedSearchCV Exercise 5: Preparar RandomizedSearch Exercise 6: Implementar RandomizedSearchCV Exercise 7: Selecciona tu modelo final Exercise 8: Mejor accuracy de clasificación Exercise 9: Seleccionar el mejor modelo por precisión

Ejercicio actual

Exercise 10: ¡Curso completado!