CommencerCommencer gratuitement

Variables de date

Vous avez créé quelques variables de base à partir de variables numériques. Il est maintenant temps de créer des variables basées sur la date et l’heure. Vous allez vous exercer sur un sous-échantillon des données de la compétition Kaggle Taxi Fare Prediction. Ces données décrivent des courses de taxi et l’objectif est de prédire le prix de chaque course.

Votre objectif est de générer des variables de date à partir de la date et l’heure de prise en charge. Rappelez-vous qu’il est préférable de créer simultanément les nouvelles variables pour les données d’entraînement et de test. Une fois les variables créées, séparez à nouveau les données en DataFrames train et test. Ici, cela est fait avec la méthode isin() de pandas.

Les DataFrames train et test sont déjà disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Gagner une compétition Kaggle en Python

Afficher le cours

Instructions

  • Concaténez les DataFrames train et test en un seul DataFrame taxi.
  • Convertissez la colonne "pickup_datetime" en objet datetime.
  • Créez les variables jour de la semaine (à l’aide de l’attribut .dayofweek) et heure (à l’aide de l’attribut .hour) à partir de la colonne "pickup_datetime".

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Concatenate train and test together
taxi = ____.____([train, test])

# Convert pickup date to datetime object
taxi['pickup_datetime'] = ____.____(taxi['pickup_datetime'])

# Create a day of week feature
taxi['dayofweek'] = taxi['pickup_datetime'].dt.____

# Create an hour feature
taxi['hour'] = taxi['pickup_datetime'].dt.____

# Split back into train and test
new_train = taxi[taxi['id'].isin(train['id'])]
new_test = taxi[taxi['id'].isin(test['id'])]
Modifier et exécuter le code