Validierungsscore reproduzieren

Im Video hast du sowohl Validierungs- als auch Public-Leaderboard-Scores gesehen. Die Codebeispiele gibt es jedoch nur für die Testdaten. Um die Validierungsscores zu erhalten, musst du denselben Prozess auf dem Holdout-Set wiederholen.

In diesem Kapitel arbeitest du mit Daten aus dem New York City Taxi-Wettbewerb. Die Aufgabe ist, den Fahrpreis für eine Taxifahrt in New York City vorherzusagen. Die Wettbewerbsmetrik ist der Root Mean Squared Error.

Das erste Ziel ist, das Baseline-Modell auf den Validierungsdaten zu bewerten. Du reproduzierst die einfachste Baseline auf Basis des Mittelwerts von "fare_amount". Zur Erinnerung: Als Validierungsstrategie haben wir einen 30-%-Holdout-Split verwendet, mit validation_train als Trainings- und validation_test als Holdout-DataFrame. Beide stehen dir in deiner Arbeitsumgebung zur Verfügung.

Diese Übung ist Teil des Kurses

Eine Kaggle-Competition in Python gewinnen

Kurs anzeigen

Anleitung zur Übung

Berechne den Mittelwert von "fare_amount" über das gesamte DataFrame validation_train.
Weise diesen naiven Vorhersagewert allen Holdout-Vorhersagen zu. Speichere sie in der Spalte "pred".

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

import numpy as np
from sklearn.metrics import mean_squared_error
from math import sqrt

# Calculate the mean fare_amount on the validation_train data
naive_prediction = np.____(____['____'])

# Assign naive prediction to all the holdout observations
validation_test['pred'] = ____

# Measure the local RMSE
rmse = sqrt(mean_squared_error(validation_test['fare_amount'], validation_test['pred']))
print('Validation RMSE for Baseline I model: {:.3f}'.format(rmse))

Code bearbeiten und ausführen