Limites des tests par validation croisée
Vous pouvez indiquer des valeurs très élevées pour nfold et num_boost_round si vous souhaitez effectuer une validation croisée très poussée. Le data frame cv_results_big a déjà été chargé dans l’espace de travail et a été créé avec le code suivant :
cv = xgb.cv(params, DTrain, num_boost_round = 600, nfold=10,
shuffle = True)
Ici, cv() a réalisé 600 itérations de validation croisée ! Le paramètre shuffle indique à la fonction de mélanger les enregistrements à chaque fois.
Examinez ces données pour voir quelles sont les valeurs d’AUC et vérifiez si elles atteignent 1.0 avec la validation croisée. Vous devez également tracer le score AUC de test pour visualiser sa progression.
Le data frame cv_results_big a été chargé dans l’espace de travail.
Cet exercice fait partie du cours
Modélisation du risque de crédit en Python
Instructions
- Affichez les cinq premières lignes du data frame des résultats de la validation croisée.
- Affichez la moyenne de l’AUC du jeu de test à partir du data frame des résultats, arrondie à deux décimales.
- Tracez une courbe de l’AUC du jeu de test au fil des itérations.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the first five rows of the CV results data frame
print(____.____())
# Calculate the mean of the test AUC scores
print(np.____(____[____]).round(2))
# Plot the test AUC scores for each iteration
plt.____(____[____])
plt.title('Test AUC Score Over 600 Iterations')
plt.xlabel('Iteration Number')
plt.ylabel('Test AUC Score')
plt.____()