Tester un pipeline de données de bout en bout

Dans cet exercice, vous travaillerez avec le même pipeline de données que précédemment, qui extrait, transforme et charge les données fiscales. Vous testerez ce pipeline de bout en bout pour vous assurer que la solution peut être exécutée plusieurs fois, sans dupliquer les données transformées dans le fichier parquet.

pandas a été chargé en tant que pd, et les fonctions extract(), transform() et load() ont déjà été définies.

Cet exercice fait partie du cours

<cours>ETL et ELT en Python</cours>

Voir le cours

Instructions de l’exercice

Exécutez le pipeline ETL trois fois, en utilisant une boucle for.
Imprimez la forme du site clean_tax_data à chaque itération du pipeline.
Lisez le DataFrame stocké dans le fichier "clean_tax_data.parquet" dans la variable to_validate.
Produire la forme du DataFrame to_validate, en la comparant à la forme du DataFrame clean_tax_rate pour s'assurer que les données n'ont pas été dupliquées à chaque passage du pipeline.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")

Modifier et exécuter le code