scikit-learn's KFold()
Je hebt zojuist de code van een collega gedraaid die een random forest-model maakt en een out-of-sample nauwkeurigheid berekent. Je merkte dat in de code van je collega geen random state stond, en de fouten die jij vond waren totaal anders dan de fouten die je collega rapporteerde.
Om een betere schatting te krijgen van hoe nauwkeurig dit random forest-model zal zijn op nieuwe data, heb je besloten indices te genereren voor KFold cross-validatie.
Deze oefening maakt deel uit van de cursus
Modelvalidatie in Python
Oefeninstructies
- Roep de methode
KFold()aan om de data te splitsen met vijf splits, shuffling, en een random state van 1111. - Gebruik de methode
split()vanKFoldopX. - Print het aantal indices in zowel de train- als de validatie-indexlijsten.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from sklearn.model_selection import KFold
# Use KFold
kf = KFold(____, ____, ____)
# Create splits
splits = kf.____(____)
# Print the number of indices
for train_index, val_index in splits:
print("Number of training indices: %s" % len(____))
print("Number of validation indices: %s" % len(____))