Baseline mit Gradient Boosting

Lass uns eine finale Baseline auf Basis des Random Forest bauen. Im Video hast du gesehen, wie sich der Score deutlich verbessert hat, als wir von der Gruppierungs-Baseline zu Gradient Boosting gewechselt sind. Jetzt nutzt du den Random Forest aus sklearn, um diesen Score weiter zu verbessern.

Ziel dieser Übung ist es, numerische Features zu verwenden und ohne Tuning ein Random-Forest-Modell zu trainieren. Danach kannst du Vorhersagen für die Testdaten erstellen und das Ergebnis auf dem Public Leaderboard validieren. Beachte, dass du bereits ein "hour"-Feature hast, das ebenfalls als Eingabe für das Modell genutzt werden kann.

Diese Übung ist Teil des Kurses

Eine Kaggle-Competition in Python gewinnen

Kurs anzeigen

Anleitung zur Übung

Füge das Feature "hour" zur Liste der numerischen Features hinzu.
Fitte den RandomForestRegressor auf den Trainingsdaten mit den numerischen Features und "fare_amount" als Zielvariable.
Verwende das trainierte Random-Forest-Modell, um Vorhersagen für die Testdaten zu erstellen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from sklearn.ensemble import RandomForestRegressor

# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude', 'dropoff_longitude',
            'dropoff_latitude', 'passenger_count', ____]

# Train a Random Forest model
rf = RandomForestRegressor()
rf.____(train[____], train.fare_amount)

# Make predictions on the test data
test['fare_amount'] = ____.____(test[features])

# Write predictions
test[['id','fare_amount']].to_csv('rf_sub.csv', index=False)

Code bearbeiten und ausführen