Baseline mit Gradient Boosting
Lass uns eine finale Baseline auf Basis des Random Forest bauen. Im Video hast du gesehen, wie sich der Score deutlich verbessert hat, als wir von der Gruppierungs-Baseline zu Gradient Boosting gewechselt sind. Jetzt nutzt du den Random Forest aus sklearn, um diesen Score weiter zu verbessern.
Ziel dieser Übung ist es, numerische Features zu verwenden und ohne Tuning ein Random-Forest-Modell zu trainieren. Danach kannst du Vorhersagen für die Testdaten erstellen und das Ergebnis auf dem Public Leaderboard validieren. Beachte, dass du bereits ein "hour"-Feature hast, das ebenfalls als Eingabe für das Modell genutzt werden kann.
Diese Übung ist Teil des Kurses
Eine Kaggle-Competition in Python gewinnen
Anleitung zur Übung
- Füge das Feature
"hour"zur Liste der numerischen Features hinzu. - Fitte den
RandomForestRegressorauf den Trainingsdaten mit den numerischen Features und"fare_amount"als Zielvariable. - Verwende das trainierte Random-Forest-Modell, um Vorhersagen für die Testdaten zu erstellen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from sklearn.ensemble import RandomForestRegressor
# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude', 'dropoff_longitude',
'dropoff_latitude', 'passenger_count', ____]
# Train a Random Forest model
rf = RandomForestRegressor()
rf.____(train[____], train.fare_amount)
# Make predictions on the test data
test['fare_amount'] = ____.____(test[features])
# Write predictions
test[['id','fare_amount']].to_csv('rf_sub.csv', index=False)