Modèle de base avec gradient boosting
Construisons un dernier modèle de base avec une Random Forest. Vous avez vu une forte amélioration du score en passant du modèle de regroupement au Gradient Boosting dans la vidéo. À présent, vous allez utiliser la Random Forest de sklearn pour améliorer encore ce score.
L’objectif de cet exercice est de prendre des variables numériques et d’entraîner un modèle Random Forest sans aucun réglage. Ensuite, vous pourrez produire des prédictions sur les données de test et valider le résultat sur le Public Leaderboard. Notez que vous disposez déjà d’une variable "hour", qui peut également être utilisée en entrée du modèle.
Cet exercice fait partie du cours
Gagner une compétition Kaggle en Python
Instructions
- Ajoutez la variable
"hour"à la liste des variables numériques. - Ajustez le
RandomForestRegressorsur les données d’entraînement avec les variables numériques et"fare_amount"comme cible. - Utilisez le modèle Random Forest entraîné pour faire des prédictions sur les données de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from sklearn.ensemble import RandomForestRegressor
# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude', 'dropoff_longitude',
'dropoff_latitude', 'passenger_count', ____]
# Train a Random Forest model
rf = RandomForestRegressor()
rf.____(train[____], train.fare_amount)
# Make predictions on the test data
test['fare_amount'] = ____.____(test[features])
# Write predictions
test[['id','fare_amount']].to_csv('rf_sub.csv', index=False)