ComenzarEmpieza gratis

Estadísticas de validación cruzada

Has usado una búsqueda en rejilla con validación cruzada para ajustar tu clasificador de random forest y ahora quieres inspeccionar los resultados de la validación cruzada para asegurarte de que no sobreajustaste. En concreto, te gustaría restar a la puntuación media de test de cada pliegue la puntuación media de entrenamiento. El conjunto de datos está disponible como X_train y y_train, la canalización como pipe, y hay varios módulos precargados, incluido pandas como pd y GridSearchCV().

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

  • Crea un objeto de búsqueda en rejilla con tres pliegues de validación cruzada y asegúrate de que devuelva estadísticas tanto de entrenamiento como de test.
  • Ajusta el objeto de búsqueda en rejilla a los datos de entrenamiento.
  • Guarda los resultados de la validación cruzada, disponibles en el atributo cv_results_ del objeto de CV ajustado, en un dataframe.
  • Imprime la diferencia entre la columna que contiene la puntuación media de test y la que contiene la puntuación media de entrenamiento.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Fit your pipeline using GridSearchCV with three folds
grid_search = GridSearchCV(
  pipe, params, ____=3, return_train_score=____)

# Fit the grid search
gs = grid_search.____(____, ____)

# Store the results of CV into a pandas dataframe
results = pd.____(gs.____)

# Print the difference between mean test and training scores
print(
  results[____]-results['mean_train_score'])
Editar y ejecutar código