Datos vistos vs. no vistos

Los modelos suelen tener mayor exactitud en observaciones que ya han visto. En el conjunto de datos de dulces, predecir la popularidad de Skittles probablemente tendrá mayor exactitud que predecir la popularidad de Andes Mints; Skittles está en el conjunto de datos y Andes Mints no.

Has creado un modelo basado en 50 dulces usando el conjunto de datos X_train y necesitas informar qué tan preciso es el modelo al predecir la popularidad de los 50 dulces con los que se construyó el modelo, y de los 35 dulces (X_test) que nunca ha visto. Usarás el error absoluto medio, mae(), como métrica de exactitud.

Este ejercicio forma parte del curso

Validación de modelos en Python

Instrucciones del ejercicio

Usando X_train y X_test como datos de entrada, crea arrays de predicciones con model.predict().
Calcula la exactitud del modelo tanto en datos que el modelo ha visto como en datos que no ha visto antes.
Usa las sentencias print para mostrar los datos vistos y no vistos.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# The model is fit using X_train and y_train
model.fit(X_train, y_train)

# Create vectors of predictions
train_predictions = model.predict(____)
test_predictions = model.predict(____)

# Train/Test Errors
train_error = mae(y_true=y_train, y_pred=____)
test_error = mae(y_true=y_test, y_pred=____)

# Print the accuracy for seen and unseen data
print("Model error on seen data: {0:.2f}.".format(____))
print("Model error on unseen data: {0:.2f}.".format(____))

Editar y ejecutar código

Este ejercicio forma parte del curso

Validación de modelos en Python

IntermedioNivel de habilidad

4.9+

Empieza el curso gratis

Antes de poder validar modelos, necesitamos entender cómo crearlos y trabajar con ellos. Este capítulo ofrece una introducción a la ejecución de modelos de regresión y clasificación en scikit-learn. Usaremos estos fundamentos de construcción de modelos a lo largo del resto de capítulos.

Exercise 1: Introducción a la validación de modelos Exercise 2: Pasos de modelado Exercise 3: Datos vistos vs. no vistos

Ejercicio actual

Exercise 4: Modelos de regresión Exercise 5: Configura parámetros y ajusta un modelo Exercise 6: Importancia de las variables Exercise 7: Modelos de clasificación Exercise 8: Predicciones de clasificación Exercise 9: Reutilizar parámetros del modelo Exercise 10: Clasificador de random forest

Este capítulo se centra en los conceptos básicos de la validación de modelos. Desde dividir los datos en conjuntos de entrenamiento, validación y prueba, hasta comprender el equilibrio sesgo-varianza, sentamos las bases para las técnicas de validación K-Fold y Leave-One-Out que practicarás en el capítulo tres.

Exercise 1: Crear conjuntos de datos de entrenamiento, prueba y validación Exercise 2: Crea un único conjunto holdout Exercise 3: Crea dos conjuntos de validación (holdout)Exercise 4: Por qué usar conjuntos holdout Exercise 5: Métricas de precisión: modelos de regresión Exercise 6: Error absoluto medio Exercise 7: Error cuadrático medio Exercise 8: Rendimiento por subconjuntos de datos Exercise 9: Métricas de clasificación Exercise 10: Matrices de confusión Exercise 11: Otra vez las matrices de confusión Exercise 12: Precisión vs. exhaustividad Exercise 13: El compromiso entre sesgo y varianza Exercise 14: Error por underfitting/overfitting Exercise 15: ¿Estoy subajustando?

Los conjuntos de retención son un gran punto de partida para la validación de modelos. Sin embargo, usar un único conjunto de entrenamiento y prueba a menudo no basta. La validación cruzada se considera el estándar de oro para validar el rendimiento de los modelos y casi siempre se usa al ajustar hiperparámetros. Este capítulo se centra en realizar validación cruzada para validar el rendimiento del modelo.

Exercise 1: Los problemas de los conjuntos holdout Exercise 2: Dos muestras Exercise 3: Problemas potenciales Exercise 4: Validación cruzada Exercise 5: `KFold()` de scikit-learn Exercise 6: Usar índices de KFold Exercise 7: cross_val_score() de sklearn Exercise 8: Métodos de scikit-learn Exercise 9: Implementa cross_val_score()Exercise 10: Validación cruzada dejando uno fuera (LOOCV)Exercise 11: Cuándo usar LOOCV Exercise 12: Leave-one-out-cross-validation

Los tres primeros capítulos se centraron en técnicas de validación de modelos. En el capítulo 4 aplicamos estas técnicas, en particular la validación cruzada, mientras aprendemos sobre el ajuste de hiperparámetros. Al fin y al cabo, la validación de modelos hace posible el ajuste y nos ayuda a seleccionar el mejor modelo general.

Exercise 1: Introducción al ajuste de hiperparámetros Exercise 2: Creación de hiperparámetros Exercise 3: Ejecutar un modelo usando rangos Exercise 4: RandomizedSearchCV Exercise 5: Preparar RandomizedSearch Exercise 6: Implementar RandomizedSearchCV Exercise 7: Selecciona tu modelo final Exercise 8: Mejor accuracy de clasificación Exercise 9: Seleccionar el mejor modelo por precisión Exercise 10: ¡Curso completado!