CommencerCommencer gratuitement

`KFold()` de scikit-learn

Vous venez d’exécuter le code d’un collègue qui crée un modèle de forêt aléatoire et calcule une exactitude hors échantillon. Vous avez remarqué que le code de votre collègue n’avait pas de graine aléatoire, et les erreurs que vous avez trouvées étaient complètement différentes de celles qu’il a rapportées.

Pour mieux estimer la performance de ce modèle de forêt aléatoire sur de nouvelles données, vous avez décidé de générer des indices pour réaliser une validation croisée KFold.

Cet exercice fait partie du cours

Validation des modèles en Python

Afficher le cours

Instructions

  • Appelez la méthode KFold() pour scinder les données en cinq plis, avec mélange (shuffle) et un état aléatoire de 1111.
  • Utilisez la méthode split() de KFold sur X.
  • Affichez le nombre d’indices dans les listes d’indices d’entraînement et de validation.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from sklearn.model_selection import KFold

# Use KFold
kf = KFold(____, ____, ____)

# Create splits
splits = kf.____(____)

# Print the number of indices
for train_index, val_index in splits:
    print("Number of training indices: %s" % len(____))
    print("Number of validation indices: %s" % len(____))
Modifier et exécuter le code