`KFold()` de scikit-learn

Acabas de ejecutar el código de un compañero que crea un modelo de random forest y calcula una exactitud fuera de muestra. Notaste que el código de tu compañero no fijaba una semilla aleatoria y que los errores que encontraste eran completamente diferentes de los que él reportó.

Para obtener una mejor estimación de cuán preciso será este modelo de random forest con datos nuevos, has decidido generar algunos índices para usar en una validación cruzada KFold.

Este ejercicio forma parte del curso

Validación de modelos en Python

Instrucciones del ejercicio

Llama al método KFold() para dividir los datos usando cinco particiones, barajado (shuffling) y un estado aleatorio de 1111.
Usa el método split() de KFold sobre X.
Imprime el número de índices tanto en las listas de índices de entrenamiento como de validación.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

from sklearn.model_selection import KFold

# Use KFold
kf = KFold(____, ____, ____)

# Create splits
splits = kf.____(____)

# Print the number of indices
for train_index, val_index in splits:
    print("Number of training indices: %s" % len(____))
    print("Number of validation indices: %s" % len(____))

Editar y ejecutar código

Este ejercicio forma parte del curso

Validación de modelos en Python

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

Antes de poder validar modelos, necesitamos entender cómo crearlos y trabajar con ellos. Este capítulo ofrece una introducción a la ejecución de modelos de regresión y clasificación en scikit-learn. Usaremos estos fundamentos de construcción de modelos a lo largo del resto de capítulos.

Exercise 1: Introducción a la validación de modelos Exercise 2: Pasos de modelado Exercise 3: Datos vistos vs. no vistos Exercise 4: Modelos de regresión Exercise 5: Configura parámetros y ajusta un modelo Exercise 6: Importancia de las variables Exercise 7: Modelos de clasificación Exercise 8: Predicciones de clasificación Exercise 9: Reutilizar parámetros del modelo Exercise 10: Clasificador de random forest

Este capítulo se centra en los conceptos básicos de la validación de modelos. Desde dividir los datos en conjuntos de entrenamiento, validación y prueba, hasta comprender el equilibrio sesgo-varianza, sentamos las bases para las técnicas de validación K-Fold y Leave-One-Out que practicarás en el capítulo tres.

Exercise 1: Crear conjuntos de datos de entrenamiento, prueba y validación Exercise 2: Crea un único conjunto holdout Exercise 3: Crea dos conjuntos de validación (holdout)Exercise 4: Por qué usar conjuntos holdout Exercise 5: Métricas de precisión: modelos de regresión Exercise 6: Error absoluto medio Exercise 7: Error cuadrático medio Exercise 8: Rendimiento por subconjuntos de datos Exercise 9: Métricas de clasificación Exercise 10: Matrices de confusión Exercise 11: Otra vez las matrices de confusión Exercise 12: Precisión vs. exhaustividad Exercise 13: El compromiso entre sesgo y varianza Exercise 14: Error por underfitting/overfitting Exercise 15: ¿Estoy subajustando?

Los conjuntos de retención son un gran punto de partida para la validación de modelos. Sin embargo, usar un único conjunto de entrenamiento y prueba a menudo no basta. La validación cruzada se considera el estándar de oro para validar el rendimiento de los modelos y casi siempre se usa al ajustar hiperparámetros. Este capítulo se centra en realizar validación cruzada para validar el rendimiento del modelo.

Exercise 1: Los problemas de los conjuntos holdout Exercise 2: Dos muestras Exercise 3: Problemas potenciales Exercise 4: Validación cruzada Exercise 5: `KFold()` de scikit-learn

Ejercicio actual

Exercise 6: Usar índices de KFold Exercise 7: cross_val_score() de sklearn Exercise 8: Métodos de scikit-learn Exercise 9: Implementa cross_val_score()Exercise 10: Validación cruzada dejando uno fuera (LOOCV)Exercise 11: Cuándo usar LOOCV Exercise 12: Leave-one-out-cross-validation

Los tres primeros capítulos se centraron en técnicas de validación de modelos. En el capítulo 4 aplicamos estas técnicas, en particular la validación cruzada, mientras aprendemos sobre el ajuste de hiperparámetros. Al fin y al cabo, la validación de modelos hace posible el ajuste y nos ayuda a seleccionar el mejor modelo general.

Exercise 1: Introducción al ajuste de hiperparámetros Exercise 2: Creación de hiperparámetros Exercise 3: Ejecutar un modelo usando rangos Exercise 4: RandomizedSearchCV Exercise 5: Preparar RandomizedSearch Exercise 6: Implementar RandomizedSearchCV Exercise 7: Selecciona tu modelo final Exercise 8: Mejor accuracy de clasificación Exercise 9: Seleccionar el mejor modelo por precisión Exercise 10: ¡Curso completado!