Estadísticas de validación cruzada

Has usado una búsqueda en rejilla con validación cruzada para ajustar tu clasificador de random forest y ahora quieres inspeccionar los resultados de la validación cruzada para asegurarte de que no sobreajustaste. En concreto, te gustaría restar a la puntuación media de test de cada pliegue la puntuación media de entrenamiento. El conjunto de datos está disponible como X_train y y_train, la canalización como pipe, y hay varios módulos precargados, incluido pandas como pd y GridSearchCV().

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

Crea un objeto de búsqueda en rejilla con tres pliegues de validación cruzada y asegúrate de que devuelva estadísticas tanto de entrenamiento como de test.
Ajusta el objeto de búsqueda en rejilla a los datos de entrenamiento.
Guarda los resultados de la validación cruzada, disponibles en el atributo cv_results_ del objeto de CV ajustado, en un dataframe.
Imprime la diferencia entre la columna que contiene la puntuación media de test y la que contiene la puntuación media de entrenamiento.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Fit your pipeline using GridSearchCV with three folds
grid_search = GridSearchCV(
  pipe, params, ____=3, return_train_score=____)

# Fit the grid search
gs = grid_search.____(____, ____)

# Store the results of CV into a pandas dataframe
results = pd.____(gs.____)

# Print the difference between mean test and training scores
print(
  results[____]-results['mean_train_score'])

Editar y ejecutar código

Diseño de flujos de trabajo de Machine Learning en Python

AvanzadoNivel de habilidad

4.8+

94 reviews

En los capítulos anteriores asentaste una base sólida en aprendizaje supervisado, con conocimientos sobre poner modelos en producción, pero siempre asumiste que habría un conjunto de datos etiquetado disponible para tu análisis. En este capítulo, afrontas el reto de modelar datos sin etiquetas o con muy pocas. Esto te lleva a explorar la detección de anomalías, un tipo de modelado no supervisado, así como el aprendizaje basado en distancias, donde las creencias sobre qué constituye la similitud entre dos ejemplos pueden usarse en lugar de etiquetas para ayudarte a lograr niveles de precisión comparables a un flujo de trabajo supervisado. Al completar este capítulo, destacarás claramente entre las personas que hacen ciencia de datos al saber con confianza qué herramientas usar para adaptar tu flujo de trabajo y superar desafíos habituales del mundo real.

Exercise 1: Detección de anomalías Exercise 2: Un outlier sencillo Exercise 3: Contaminación en LoF Exercise 4: Detección de novedades Exercise 5: Una novedad sencilla Exercise 6: Tres detectores de novedad Exercise 7: Revisiting contamination Exercise 8: Aprendizaje basado en distancias Exercise 9: Encuentra el vecino Exercise 10: No todas las métricas coinciden Exercise 11: Datos no estructurados Exercise 12: Levenshtein restringida Exercise 13: Juntándolo todo Exercise 14: Comentarios finales