CommencerCommencer gratuitement

Statistiques de validation croisée

Vous avez utilisé une recherche sur grille avec validation croisée pour optimiser votre classifieur random forest et vous souhaitez maintenant examiner les résultats de la validation croisée pour vérifier que vous n’avez pas surappris. En particulier, vous voulez calculer, pour chaque pli, la différence entre le score moyen sur l’ensemble de test et le score moyen sur l’ensemble d’entraînement. Le jeu de données est disponible sous X_train et y_train, le pipeline sous pipe, et plusieurs modules sont préchargés, notamment pandas sous pd et GridSearchCV().

Cet exercice fait partie du cours

Concevoir des workflows de Machine Learning en Python

Afficher le cours

Instructions

  • Créez un objet de recherche sur grille avec trois plis de validation croisée et configurez-le pour qu’il renvoie les statistiques d’entraînement et de test.
  • Ajustez l’objet de recherche sur grille aux données d’entraînement.
  • Stockez les résultats de la validation croisée, disponibles dans l’attribut cv_results_ de l’objet CV ajusté, dans un dataframe.
  • Affichez la différence entre la colonne contenant le score moyen sur test et celle contenant le score moyen sur entraînement.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Fit your pipeline using GridSearchCV with three folds
grid_search = GridSearchCV(
  pipe, params, ____=3, return_train_score=____)

# Fit the grid search
gs = grid_search.____(____, ____)

# Store the results of CV into a pandas dataframe
results = pd.____(gs.____)

# Print the difference between mean test and training scores
print(
  results[____]-results['mean_train_score'])
Modifier et exécuter le code