Estadísticas de validación cruzada
Has usado una búsqueda en rejilla con validación cruzada para ajustar tu clasificador de random forest y ahora quieres inspeccionar los resultados de la validación cruzada para asegurarte de que no sobreajustaste. En concreto, te gustaría restar a la puntuación media de test de cada pliegue la puntuación media de entrenamiento. El conjunto de datos está disponible como X_train y y_train, la canalización como pipe, y hay varios módulos precargados, incluido pandas como pd y GridSearchCV().
Este ejercicio forma parte del curso
Diseño de flujos de trabajo de Machine Learning en Python
Instrucciones del ejercicio
- Crea un objeto de búsqueda en rejilla con tres pliegues de validación cruzada y asegúrate de que devuelva estadísticas tanto de entrenamiento como de test.
- Ajusta el objeto de búsqueda en rejilla a los datos de entrenamiento.
- Guarda los resultados de la validación cruzada, disponibles en el atributo
cv_results_del objeto de CV ajustado, en un dataframe. - Imprime la diferencia entre la columna que contiene la puntuación media de test y la que contiene la puntuación media de entrenamiento.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Fit your pipeline using GridSearchCV with three folds
grid_search = GridSearchCV(
pipe, params, ____=3, return_train_score=____)
# Fit the grid search
gs = grid_search.____(____, ____)
# Store the results of CV into a pandas dataframe
results = pd.____(gs.____)
# Print the difference between mean test and training scores
print(
results[____]-results['mean_train_score'])