Valider un pipeline de données à des "points de contrôle".

Dans cet exercice, vous travaillerez avec un pipeline de données qui extrait les données fiscales d'un fichier CSV, crée une nouvelle colonne, filtre les lignes sur la base du revenu imposable moyen et persiste les données dans un fichier parquet.

pandas a été chargé en tant que pd, et les fonctions extract(), transform() et load() ont déjà été définies. Vous utiliserez ces fonctions pour valider le pipeline de données à différents points de contrôle tout au long de son exécution.

Cet exercice fait partie du cours

<cours>ETL et ELT en Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)

# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")

Modifier et exécuter le code