`KFold()` de scikit-learn
Vous venez d’exécuter le code d’un collègue qui crée un modèle de forêt aléatoire et calcule une exactitude hors échantillon. Vous avez remarqué que le code de votre collègue n’avait pas de graine aléatoire, et les erreurs que vous avez trouvées étaient complètement différentes de celles qu’il a rapportées.
Pour mieux estimer la performance de ce modèle de forêt aléatoire sur de nouvelles données, vous avez décidé de générer des indices pour réaliser une validation croisée KFold.
Cet exercice fait partie du cours
Validation des modèles en Python
Instructions
- Appelez la méthode
KFold()pour scinder les données en cinq plis, avec mélange (shuffle) et un état aléatoire de 1111. - Utilisez la méthode
split()deKFoldsurX. - Affichez le nombre d’indices dans les listes d’indices d’entraînement et de validation.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from sklearn.model_selection import KFold
# Use KFold
kf = KFold(____, ____, ____)
# Create splits
splits = kf.____(____)
# Print the number of indices
for train_index, val_index in splits:
print("Number of training indices: %s" % len(____))
print("Number of validation indices: %s" % len(____))