Baseline auf Basis des Datums

Wir haben bereits 3 verschiedene Baseline-Modelle gebaut. Um weiter zu üben, erstellen wir noch ein paar weitere. Das erste Modell basiert auf Gruppierungsvariablen. Es liegt nahe, dass der Fahrpreis vom Teil des Tages abhängen kann. Zum Beispiel könnten die Preise während der Hauptverkehrszeiten höher sein.

Dein Ziel ist es, ein Baseline-Modell zu bauen, das den durchschnittlichen "fare_amount" für die jeweilige Stunde zuweist. Zunächst erstellst du das Modell für die gesamten train-Daten und erstellst Vorhersagen für den test-Datensatz.

Die DataFrames train und test stehen dir in deinem Workspace zur Verfügung. Außerdem ist die Spalte "pickup_datetime" in beiden DataFrames bereits in ein datetime-Objekt konvertiert worden.

Diese Übung ist Teil des Kurses

<Kurs>Eine Kaggle-Competition in Python gewinnen</Kurs>

Kurs ansehen

Übungsanweisungen

Ermittle die Stunde aus der Spalte "pickup_datetime" für die DataFrames train und test.
Berechne den durchschnittlichen "fare_amount" für jede Stunde auf den train-Daten.
Erstelle test-Vorhersagen mit der pandas-Methode map() und der erhaltenen Gruppierung.
Schreibe die Vorhersagen in eine Datei.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Get pickup hour from the pickup_datetime column
train['hour'] = train['pickup_datetime'].dt.____
test['hour'] = test['pickup_datetime'].dt.____

# Calculate average fare_amount grouped by pickup hour 
hour_groups = train.____('____')['____'].mean()

# Make predictions on the test set
test['fare_amount'] = test.hour.map(____)

# Write predictions
test[['id','fare_amount']].____('hour_mean_sub.csv', index=False)

Code bearbeiten und ausführen