Tester un pipeline de données de bout en bout
Dans cet exercice, vous travaillerez avec le même pipeline de données que précédemment, qui extrait, transforme et charge les données fiscales. Vous testerez ce pipeline de bout en bout pour vous assurer que la solution peut être exécutée plusieurs fois, sans dupliquer les données transformées dans le fichier parquet.
pandas
a été chargé en tant que pd
, et les fonctions extract()
, transform()
et load()
ont déjà été définies.
Cet exercice fait partie du cours
ETL et ELT en Python
Instructions
- Exécutez le pipeline ETL trois fois, en utilisant une boucle
for
. - Imprimez la forme du site
clean_tax_data
à chaque itération du pipeline. - Lisez le DataFrame stocké dans le fichier
"clean_tax_data.parquet"
dans la variableto_validate
. - Produire la forme du DataFrame
to_validate
, en la comparant à la forme declean_tax_rate
pour s'assurer que les données n'ont pas été dupliquées à chaque passage du pipeline.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
print(f"Attempt: {attempt}")
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
load(clean_tax_data, "clean_tax_data.parquet")
# Print the shape of the cleaned_tax_data DataFrame
print(f"Shape of clean_tax_data: {clean_tax_data.____}")
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")