Leave-one-out-cross-validation

Imagina que tu chuche favorita no está en el conjunto de datos de caramelos y te interesa saber su popularidad. Usar validación cruzada de 5 pliegues solo entrenará con el 80% de los datos cada vez. Pero el conjunto de datos de caramelos solo tiene 85 filas, y dejar fuera el 20% podría perjudicar nuestro modelo. En cambio, usar leave-one-out-cross-validation nos permite aprovechar al máximo un conjunto de datos limitado y te dará la mejor estimación de la popularidad de tu chuche favorita.

En este ejercicio, usarás cross_val_score() para realizar LOOCV.

Este ejercicio forma parte del curso

Validación de modelos en Python

Instrucciones del ejercicio

Crea un "scorer" usando mean_absolute_error para que lo use cross_val_score().
Completa cross_val_score() para que utilice el modelo rfr, el nuevo mae_scorer y LOOCV.
Imprime la media y la desviación estándar de scores usando numpy (cargado como np).

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

from sklearn.metrics import mean_absolute_error, make_scorer

# Create scorer
mae_scorer = ____(____)

rfr = RandomForestRegressor(n_estimators=15, random_state=1111)

# Implement LOOCV
scores = cross_val_score(____, X=X, y=y, cv=____, scoring=____)

# Print the mean and standard deviation
print("The mean of the errors is: %s." % np.____(____))
print("The standard deviation of the errors is: %s." % np.____(____))

Editar y ejecutar código

Este ejercicio forma parte del curso

Validación de modelos en Python

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

Antes de poder validar modelos, necesitamos entender cómo crearlos y trabajar con ellos. Este capítulo ofrece una introducción a la ejecución de modelos de regresión y clasificación en scikit-learn. Usaremos estos fundamentos de construcción de modelos a lo largo del resto de capítulos.

Exercise 1: Introducción a la validación de modelos Exercise 2: Pasos de modelado Exercise 3: Datos vistos vs. no vistos Exercise 4: Modelos de regresión Exercise 5: Configura parámetros y ajusta un modelo Exercise 6: Importancia de las variables Exercise 7: Modelos de clasificación Exercise 8: Predicciones de clasificación Exercise 9: Reutilizar parámetros del modelo Exercise 10: Clasificador de random forest

Este capítulo se centra en los conceptos básicos de la validación de modelos. Desde dividir los datos en conjuntos de entrenamiento, validación y prueba, hasta comprender el equilibrio sesgo-varianza, sentamos las bases para las técnicas de validación K-Fold y Leave-One-Out que practicarás en el capítulo tres.

Exercise 1: Crear conjuntos de datos de entrenamiento, prueba y validación Exercise 2: Crea un único conjunto holdout Exercise 3: Crea dos conjuntos de validación (holdout)Exercise 4: Por qué usar conjuntos holdout Exercise 5: Métricas de precisión: modelos de regresión Exercise 6: Error absoluto medio Exercise 7: Error cuadrático medio Exercise 8: Rendimiento por subconjuntos de datos Exercise 9: Métricas de clasificación Exercise 10: Matrices de confusión Exercise 11: Otra vez las matrices de confusión Exercise 12: Precisión vs. exhaustividad Exercise 13: El compromiso entre sesgo y varianza Exercise 14: Error por underfitting/overfitting Exercise 15: ¿Estoy subajustando?

Los conjuntos de retención son un gran punto de partida para la validación de modelos. Sin embargo, usar un único conjunto de entrenamiento y prueba a menudo no basta. La validación cruzada se considera el estándar de oro para validar el rendimiento de los modelos y casi siempre se usa al ajustar hiperparámetros. Este capítulo se centra en realizar validación cruzada para validar el rendimiento del modelo.

Exercise 1: Los problemas de los conjuntos holdout Exercise 2: Dos muestras Exercise 3: Problemas potenciales Exercise 4: Validación cruzada Exercise 5: `KFold()` de scikit-learn Exercise 6: Usar índices de KFold Exercise 7: cross_val_score() de sklearn Exercise 8: Métodos de scikit-learn Exercise 9: Implementa cross_val_score()Exercise 10: Validación cruzada dejando uno fuera (LOOCV)Exercise 11: Cuándo usar LOOCV Exercise 12: Leave-one-out-cross-validation

Ejercicio actual

Los tres primeros capítulos se centraron en técnicas de validación de modelos. En el capítulo 4 aplicamos estas técnicas, en particular la validación cruzada, mientras aprendemos sobre el ajuste de hiperparámetros. Al fin y al cabo, la validación de modelos hace posible el ajuste y nos ayuda a seleccionar el mejor modelo general.

Exercise 1: Introducción al ajuste de hiperparámetros Exercise 2: Creación de hiperparámetros Exercise 3: Ejecutar un modelo usando rangos Exercise 4: RandomizedSearchCV Exercise 5: Preparar RandomizedSearch Exercise 6: Implementar RandomizedSearchCV Exercise 7: Selecciona tu modelo final Exercise 8: Mejor accuracy de clasificación Exercise 9: Seleccionar el mejor modelo por precisión Exercise 10: ¡Curso completado!