Baseline con gradient boosting
Costruiamo una baseline finale basata sulla Random Forest. Nel video hai visto un grande miglioramento passando dalla baseline per raggruppamenti al Gradient Boosting. Ora userai la Random Forest di sklearn per migliorare ulteriormente questo punteggio.
L'obiettivo di questo esercizio è prendere le feature numeriche e addestrare un modello Random Forest senza alcun tuning. Dopo, potrai generare le predizioni sul test e validare il risultato sulla Public Leaderboard. Nota che hai già a disposizione una feature "hour", che può essere usata come input del modello.
Questo esercizio fa parte del corso
Vincere una competizione Kaggle con Python
Istruzioni dell'esercizio
- Aggiungi la feature
"hour"all'elenco delle feature numeriche. - Allena il
RandomForestRegressorsui dati di train con le feature numeriche e"fare_amount"come target. - Usa il modello Random Forest addestrato per effettuare previsioni sui dati di test.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from sklearn.ensemble import RandomForestRegressor
# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude', 'dropoff_longitude',
'dropoff_latitude', 'passenger_count', ____]
# Train a Random Forest model
rf = RandomForestRegressor()
rf.____(train[____], train.fare_amount)
# Make predictions on the test data
test['fare_amount'] = ____.____(test[features])
# Write predictions
test[['id','fare_amount']].to_csv('rf_sub.csv', index=False)