CommencerCommencer gratuitement

Extraire des datetimes depuis plusieurs colonnes

Il arrive que des données de type datetime soient réparties sur plusieurs colonnes. Un jeu de données peut avoir une colonne pour la date et une autre pour l’heure, ou encore une date séparée en colonnes année, mois et jour.

Dans cette version des données d’enquête, une colonne a été scindée : les dates sont dans Part2StartDate et les heures dans Part2StartTime. Votre objectif est d’utiliser l’argument parse_dates de read_excel() pour les combiner en une seule colonne datetime avec un nouveau nom.

pandas a été importé sous l’alias pd.

Cet exercice fait partie du cours

Ingestion de données simplifiée avec pandas

Afficher le cours

Instructions

  • Créez un dictionnaire datetime_cols indiquant que la nouvelle colonne Part2Start doit être composée de Part2StartDate et Part2StartTime.
  • Chargez le fichier de réponses à l’enquête en fournissant ce dictionnaire à l’argument parse_dates afin de créer la nouvelle colonne Part2Start.
  • Affichez des statistiques descriptives sur la nouvelle colonne Part2Start avec la méthode describe().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create dict of columns to combine into new datetime column
datetime_cols = {"Part2Start": ____}


# Load file, supplying the dict to parse_dates
survey_data = pd.read_excel("fcc_survey_dts.xlsx",
                            ____)

# View summary statistics about Part2Start
print(survey_data.Part2Start.describe())
Modifier et exécuter le code