Gesamter Validierungsscore

Jetzt ist es Zeit, die tatsächliche Modellleistung per Cross-Validation zu ermitteln! Wie schlägt sich unser Modell zur Vorhersage der Nachfrage nach Artikeln im Geschäft?

Deine Aufgabe ist es, den Mean Squared Error (MSE) für jeden Fold separat zu berechnen und diese Ergebnisse anschließend zu einer einzigen Zahl zusammenzufassen.

Der Einfachheit halber bekommst du die Funktion get_fold_mse(), die für jeden Cross-Validation-Split ein Random-Forest-Modell trainiert und eine Liste von MSE-Werten pro Fold zurückgibt. get_fold_mse() akzeptiert zwei Argumente: train und ein TimeSeriesSplit-Objekt.

Diese Übung ist Teil des Kurses

<Kurs>Eine Kaggle-Competition in Python gewinnen</Kurs>

Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

from sklearn.model_selection import TimeSeriesSplit
import numpy as np

# Sort train data by date
train = train.sort_values('date')

# Initialize 3-fold time cross-validation
kf = ____(n_splits=____)

# Get MSE scores for each cross-validation split
mse_scores = get_fold_mse(train, kf)

print('Mean validation MSE: {:.5f}'.format(np.____(____)))

Code bearbeiten und ausführen