Baseline con gradient boosting

Costruiamo una baseline finale basata sulla Random Forest. Nel video hai visto un grande miglioramento passando dalla baseline per raggruppamenti al Gradient Boosting. Ora userai la Random Forest di sklearn per migliorare ulteriormente questo punteggio.

L'obiettivo di questo esercizio è prendere le feature numeriche e addestrare un modello Random Forest senza alcun tuning. Dopo, potrai generare le predizioni sul test e validare il risultato sulla Public Leaderboard. Nota che hai già a disposizione una feature "hour", che può essere usata come input del modello.

Questo esercizio fa parte del corso

Vincere una competizione Kaggle con Python

Visualizza il corso

Istruzioni dell'esercizio

Aggiungi la feature "hour" all'elenco delle feature numeriche.
Allena il RandomForestRegressor sui dati di train con le feature numeriche e "fare_amount" come target.
Usa il modello Random Forest addestrato per effettuare previsioni sui dati di test.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

from sklearn.ensemble import RandomForestRegressor

# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude', 'dropoff_longitude',
            'dropoff_latitude', 'passenger_count', ____]

# Train a Random Forest model
rf = RandomForestRegressor()
rf.____(train[____], train.fare_amount)

# Make predictions on the test data
test['fare_amount'] = ____.____(test[features])

# Write predictions
test[['id','fare_amount']].to_csv('rf_sub.csv', index=False)

Modifica ed esegui il codice