Utiliser les indices KFold
Vous avez déjà créé splits, qui contient les indices du jeu de données candy-data pour réaliser une validation croisée en 5 plis. Pour mieux estimer les performances du modèle de random forest de votre collègue sur de nouvelles données, vous souhaitez exécuter ce modèle sur les cinq paires d’indices d’entraînement et de validation que vous venez de créer.
Dans cet exercice, vous utiliserez ces indices pour vérifier la précision de ce modèle sur les cinq divisions. Une boucle for est fournie pour vous aider dans cette démarche.
Cet exercice fait partie du cours
Validation des modèles en Python
Instructions
- Utilisez
train_indexetval_indexpour appeler les bons indices deXetylors de la création des données d’entraînement et de validation. - Ajustez
rfcen utilisant l’ensemble d’entraînement. - Utilisez
rfcpour générer des prédictions sur l’ensemble de validation et affichez la précision de validation.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
rfc = RandomForestRegressor(n_estimators=25, random_state=1111)
# Access the training and validation indices of splits
for train_index, val_index in splits:
# Setup the training and validation data
X_train, y_train = X[____], y[____]
X_val, y_val = X[____], y[____]
# Fit the random forest model
rfc.____(____, ____)
# Make predictions, and print the accuracy
predictions = rfc.____(____)
print("Split accuracy: " + str(mean_squared_error(y_val, predictions)))