Baseline auf Basis des Datums
Wir haben bereits 3 verschiedene Baseline-Modelle gebaut. Um weiter zu üben, erstellen wir noch ein paar weitere. Das erste Modell basiert auf Gruppierungsvariablen. Es liegt nahe, dass der Fahrpreis vom Teil des Tages abhängen kann. Zum Beispiel könnten die Preise während der Hauptverkehrszeiten höher sein.
Dein Ziel ist es, ein Baseline-Modell zu bauen, das den durchschnittlichen "fare_amount" für die jeweilige Stunde zuweist. Zunächst erstellst du das Modell für die gesamten train-Daten und erstellst Vorhersagen für den test-Datensatz.
Die DataFrames train und test stehen dir in deinem Workspace zur Verfügung. Außerdem ist die Spalte "pickup_datetime" in beiden DataFrames bereits in ein datetime-Objekt konvertiert worden.
Diese Übung ist Teil des Kurses
Eine Kaggle-Competition in Python gewinnen
Anleitung zur Übung
- Ermittle die Stunde aus der Spalte "pickup_datetime" für die DataFrames
trainundtest. - Berechne den durchschnittlichen "fare_amount" für jede Stunde auf den
train-Daten. - Erstelle
test-Vorhersagen mit derpandas-Methodemap()und der erhaltenen Gruppierung. - Schreibe die Vorhersagen in eine Datei.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Get pickup hour from the pickup_datetime column
train['hour'] = train['pickup_datetime'].dt.____
test['hour'] = test['pickup_datetime'].dt.____
# Calculate average fare_amount grouped by pickup hour
hour_groups = train.____('____')['____'].mean()
# Make predictions on the test set
test['fare_amount'] = test.hour.map(____)
# Write predictions
test[['id','fare_amount']].____('hour_mean_sub.csv', index=False)