CommencerCommencer gratuitement

Modèle de base fondé sur la date

Nous avons déjà construit 3 modèles de base différents. Pour nous exercer davantage, construisons-en encore quelques-uns. Le premier modèle repose sur des variables de regroupement. Il est clair que le prix d’une course peut dépendre du moment de la journée. Par exemple, les tarifs peuvent être plus élevés aux heures de pointe.

Votre objectif est de construire un modèle de base qui attribue la "fare_amount" moyenne à l’heure correspondante. Pour l’instant, vous allez créer le modèle sur l’ensemble des données train et générer des prédictions pour le jeu de données test.

Les DataFrames train et test sont disponibles dans votre espace de travail. De plus, la colonne "pickup_datetime" dans les deux DataFrames a déjà été convertie en objet datetime pour vous.

Cet exercice fait partie du cours

Gagner une compétition Kaggle en Python

Afficher le cours

Instructions

  • Récupérez l’heure à partir de la colonne "pickup_datetime" pour les DataFrames train et test.
  • Calculez la "fare_amount" moyenne pour chaque heure sur les données d’entraînement.
  • Réalisez les prédictions test à l’aide de la méthode map() de pandas et du regroupement obtenu.
  • Écrivez les prédictions dans un fichier.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Get pickup hour from the pickup_datetime column
train['hour'] = train['pickup_datetime'].dt.____
test['hour'] = test['pickup_datetime'].dt.____

# Calculate average fare_amount grouped by pickup hour 
hour_groups = train.____('____')['____'].mean()

# Make predictions on the test set
test['fare_amount'] = test.hour.map(____)

# Write predictions
test[['id','fare_amount']].____('hour_mean_sub.csv', index=False)
Modifier et exécuter le code