Score de validation global

Il est temps d’évaluer les performances réelles du modèle avec la validation croisée. Comment se comporte notre modèle de prédiction de la demande par article en magasin ?

Votre tâche consiste à calculer la Mean Squared Error (MSE) pour chaque fold séparément, puis à combiner ces résultats en un seul nombre.

Pour simplifier, on vous fournit la fonction get_fold_mse() qui, pour chaque split de validation croisée, ajuste un modèle Random Forest et renvoie une liste de MSE par fold. get_fold_mse() accepte deux arguments : train et un objet TimeSeriesSplit.

Cet exercice fait partie du cours

Gagner une compétition Kaggle en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from sklearn.model_selection import TimeSeriesSplit
import numpy as np

# Sort train data by date
train = train.sort_values('date')

# Initialize 3-fold time cross-validation
kf = ____(n_splits=____)

# Get MSE scores for each cross-validation split
mse_scores = get_fold_mse(train, kf)

print('Mean validation MSE: {:.5f}'.format(np.____(____)))

Modifier et exécuter le code