Baseline op basis van gradient boosting

Laten we een laatste baseline bouwen op basis van de Random Forest. In de video zag je een enorme scoreverbetering bij de stap van de groeps-baseline naar de Gradient Boosting. Nu ga je met de Random Forest van sklearn die score verder verbeteren.

Het doel van deze oefening is om numerieke features te gebruiken en een Random Forest-model te trainen zonder te tunen. Daarna kun je testvoorspellingen maken en het resultaat valideren op het Public Leaderboard. Let op: je hebt al een "hour"-feature die je ook als invoer voor het model kunt gebruiken.

Deze oefening maakt deel uit van de cursus

Een Kaggle-competitie winnen met Python

Cursus bekijken

Oefeninstructies

Voeg de feature "hour" toe aan de lijst met numerieke features.
Fit de RandomForestRegressor op de train data met numerieke features en "fare_amount" als target.
Gebruik het getrainde Random Forest-model om voorspellingen te maken op de test data.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

from sklearn.ensemble import RandomForestRegressor

# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude', 'dropoff_longitude',
            'dropoff_latitude', 'passenger_count', ____]

# Train a Random Forest model
rf = RandomForestRegressor()
rf.____(train[____], train.fare_amount)

# Make predictions on the test data
test['fare_amount'] = ____.____(test[features])

# Write predictions
test[['id','fare_amount']].to_csv('rf_sub.csv', index=False)

Code bewerken en uitvoeren