Valider un pipeline de données avec assert
Pour créer des tests unitaires pour les pipelines de données, il est important de se familiariser avec le mot-clé assert
et la fonction isinstance()
. Dans cet exercice, vous vous entraînerez à utiliser ces deux outils pour valider les composants d'un pipeline de données.
Les fonctions extract()
et transform()
ont été mises à votre disposition, ainsi que pandas
, qui a été importé en tant que pd
. extract()
et transform()
renvoient tous deux un DataFrame. Bonne chance !
Cet exercice fait partie du cours
ETL et ELT en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Validate the number of columns in the DataFrame
____ len(clean_tax_data.columns) == ____