Validierungsscore reproduzieren
Im Video hast du sowohl Validierungs- als auch Public-Leaderboard-Scores gesehen. Die Codebeispiele gibt es jedoch nur für die Testdaten. Um die Validierungsscores zu erhalten, musst du denselben Prozess auf dem Holdout-Set wiederholen.
In diesem Kapitel arbeitest du mit Daten aus dem New York City Taxi-Wettbewerb. Die Aufgabe ist, den Fahrpreis für eine Taxifahrt in New York City vorherzusagen. Die Wettbewerbsmetrik ist der Root Mean Squared Error.
Das erste Ziel ist, das Baseline-Modell auf den Validierungsdaten zu bewerten. Du reproduzierst die einfachste Baseline auf Basis des Mittelwerts von "fare_amount". Zur Erinnerung: Als Validierungsstrategie haben wir einen 30-%-Holdout-Split verwendet, mit validation_train als Trainings- und validation_test als Holdout-DataFrame. Beide stehen dir in deiner Arbeitsumgebung zur Verfügung.
Diese Übung ist Teil des Kurses
Eine Kaggle-Competition in Python gewinnen
Anleitung zur Übung
- Berechne den Mittelwert von
"fare_amount"über das gesamte DataFramevalidation_train. - Weise diesen naiven Vorhersagewert allen Holdout-Vorhersagen zu. Speichere sie in der Spalte
"pred".
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
import numpy as np
from sklearn.metrics import mean_squared_error
from math import sqrt
# Calculate the mean fare_amount on the validation_train data
naive_prediction = np.____(____['____'])
# Assign naive prediction to all the holdout observations
validation_test['pred'] = ____
# Measure the local RMSE
rmse = sqrt(mean_squared_error(validation_test['fare_amount'], validation_test['pred']))
print('Validation RMSE for Baseline I model: {:.3f}'.format(rmse))