Crea dos conjuntos de validación (holdout)

Hace poco creaste un modelo sencillo de random forest para predecir victorias en partidas de Tic-Tac-Toe para tu jefa y, a petición suya, no hiciste ajuste de parámetros. Por desgracia, la exactitud general del modelo fue demasiado baja para sus estándares. Esta vez te ha pedido que te centres en el rendimiento del modelo.

Antes de empezar a probar distintos modelos y conjuntos de parámetros, tendrás que dividir los datos en conjuntos de entrenamiento, validación y prueba. Recuerda que, después de separar los datos en entrenamiento y prueba, el conjunto de validación se crea dividiendo el conjunto de entrenamiento.

Los conjuntos de datos X e y ya están cargados para que los uses.

Este ejercicio forma parte del curso

Validación de modelos en Python

Instrucciones del ejercicio

Crea conjuntos temporales y conjuntos de prueba (X_test, y_test). Usa el 20% del total de datos para los conjuntos de prueba.
Con los conjuntos temporales (X_temp, y_temp), crea los conjuntos de entrenamiento (X_train, y_train) y validación (X_val, y_val).
Usa el 25% de los datos temporales para los conjuntos de validación.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____  =\
    train_test_split(X, y, ____=____, random_state=1111)

# Create the final training and validation datasets
____, ____, ____, ____ =\
    train_test_split(X_temp, y_temp, ____=____, random_state=1111)

Editar y ejecutar código

Este ejercicio forma parte del curso

Validación de modelos en Python

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

Antes de poder validar modelos, necesitamos entender cómo crearlos y trabajar con ellos. Este capítulo ofrece una introducción a la ejecución de modelos de regresión y clasificación en scikit-learn. Usaremos estos fundamentos de construcción de modelos a lo largo del resto de capítulos.

Exercise 1: Introducción a la validación de modelos Exercise 2: Pasos de modelado Exercise 3: Datos vistos vs. no vistos Exercise 4: Modelos de regresión Exercise 5: Configura parámetros y ajusta un modelo Exercise 6: Importancia de las variables Exercise 7: Modelos de clasificación Exercise 8: Predicciones de clasificación Exercise 9: Reutilizar parámetros del modelo Exercise 10: Clasificador de random forest

Este capítulo se centra en los conceptos básicos de la validación de modelos. Desde dividir los datos en conjuntos de entrenamiento, validación y prueba, hasta comprender el equilibrio sesgo-varianza, sentamos las bases para las técnicas de validación K-Fold y Leave-One-Out que practicarás en el capítulo tres.

Exercise 1: Crear conjuntos de datos de entrenamiento, prueba y validación Exercise 2: Crea un único conjunto holdout Exercise 3: Crea dos conjuntos de validación (holdout)

Ejercicio actual

Exercise 4: Por qué usar conjuntos holdout Exercise 5: Métricas de precisión: modelos de regresión Exercise 6: Error absoluto medio Exercise 7: Error cuadrático medio Exercise 8: Rendimiento por subconjuntos de datos Exercise 9: Métricas de clasificación Exercise 10: Matrices de confusión Exercise 11: Otra vez las matrices de confusión Exercise 12: Precisión vs. exhaustividad Exercise 13: El compromiso entre sesgo y varianza Exercise 14: Error por underfitting/overfitting Exercise 15: ¿Estoy subajustando?

Los conjuntos de retención son un gran punto de partida para la validación de modelos. Sin embargo, usar un único conjunto de entrenamiento y prueba a menudo no basta. La validación cruzada se considera el estándar de oro para validar el rendimiento de los modelos y casi siempre se usa al ajustar hiperparámetros. Este capítulo se centra en realizar validación cruzada para validar el rendimiento del modelo.

Exercise 1: Los problemas de los conjuntos holdout Exercise 2: Dos muestras Exercise 3: Problemas potenciales Exercise 4: Validación cruzada Exercise 5: `KFold()` de scikit-learn Exercise 6: Usar índices de KFold Exercise 7: cross_val_score() de sklearn Exercise 8: Métodos de scikit-learn Exercise 9: Implementa cross_val_score()Exercise 10: Validación cruzada dejando uno fuera (LOOCV)Exercise 11: Cuándo usar LOOCV Exercise 12: Leave-one-out-cross-validation

Los tres primeros capítulos se centraron en técnicas de validación de modelos. En el capítulo 4 aplicamos estas técnicas, en particular la validación cruzada, mientras aprendemos sobre el ajuste de hiperparámetros. Al fin y al cabo, la validación de modelos hace posible el ajuste y nos ayuda a seleccionar el mejor modelo general.

Exercise 1: Introducción al ajuste de hiperparámetros Exercise 2: Creación de hiperparámetros Exercise 3: Ejecutar un modelo usando rangos Exercise 4: RandomizedSearchCV Exercise 5: Preparar RandomizedSearch Exercise 6: Implementar RandomizedSearchCV Exercise 7: Selecciona tu modelo final Exercise 8: Mejor accuracy de clasificación Exercise 9: Seleccionar el mejor modelo por precisión Exercise 10: ¡Curso completado!