Extraire des datetimes depuis plusieurs colonnes
Il arrive que des données de type datetime soient réparties sur plusieurs colonnes. Un jeu de données peut avoir une colonne pour la date et une autre pour l’heure, ou encore une date séparée en colonnes année, mois et jour.
Dans cette version des données d’enquête, une colonne a été scindée : les dates sont dans Part2StartDate et les heures dans Part2StartTime. Votre objectif est d’utiliser l’argument parse_dates de read_excel() pour les combiner en une seule colonne datetime avec un nouveau nom.
pandas a été importé sous l’alias pd.
Cet exercice fait partie du cours
Ingestion de données simplifiée avec pandas
Instructions
- Créez un dictionnaire
datetime_colsindiquant que la nouvelle colonnePart2Startdoit être composée dePart2StartDateetPart2StartTime. - Chargez le fichier de réponses à l’enquête en fournissant ce dictionnaire à l’argument
parse_datesafin de créer la nouvelle colonnePart2Start. - Affichez des statistiques descriptives sur la nouvelle colonne
Part2Startavec la méthodedescribe().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create dict of columns to combine into new datetime column
datetime_cols = {"Part2Start": ____}
# Load file, supplying the dict to parse_dates
survey_data = pd.read_excel("fcc_survey_dts.xlsx",
____)
# View summary statistics about Part2Start
print(survey_data.Part2Start.describe())