Modèle de base fondé sur la date
Nous avons déjà construit 3 modèles de base différents. Pour nous exercer davantage, construisons-en encore quelques-uns. Le premier modèle repose sur des variables de regroupement. Il est clair que le prix d’une course peut dépendre du moment de la journée. Par exemple, les tarifs peuvent être plus élevés aux heures de pointe.
Votre objectif est de construire un modèle de base qui attribue la "fare_amount" moyenne à l’heure correspondante. Pour l’instant, vous allez créer le modèle sur l’ensemble des données train et générer des prédictions pour le jeu de données test.
Les DataFrames train et test sont disponibles dans votre espace de travail. De plus, la colonne "pickup_datetime" dans les deux DataFrames a déjà été convertie en objet datetime pour vous.
Cet exercice fait partie du cours
Gagner une compétition Kaggle en Python
Instructions
- Récupérez l’heure à partir de la colonne "pickup_datetime" pour les DataFrames
trainettest. - Calculez la "fare_amount" moyenne pour chaque heure sur les données d’entraînement.
- Réalisez les prédictions
testà l’aide de la méthodemap()depandaset du regroupement obtenu. - Écrivez les prédictions dans un fichier.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Get pickup hour from the pickup_datetime column
train['hour'] = train['pickup_datetime'].dt.____
test['hour'] = test['pickup_datetime'].dt.____
# Calculate average fare_amount grouped by pickup hour
hour_groups = train.____('____')['____'].mean()
# Make predictions on the test set
test['fare_amount'] = test.hour.map(____)
# Write predictions
test[['id','fare_amount']].____('hour_mean_sub.csv', index=False)