Een datapijplijn end-to-end testen
In deze oefening werk je met dezelfde datapijplijn als eerder, die belastingdata extraheert, transformeert en laadt. Je gaat oefenen met het end-to-end testen van deze pijplijn, zodat de oplossing meerdere keren kan draaien zonder de getransformeerde data in het parquet-bestand te dupliceren.
pandas is geladen als pd, en de functies extract(), transform() en load() zijn al gedefinieerd.
Deze oefening maakt deel uit van de cursus
ETL en ELT in Python
Oefeninstructies
- Voer de ETL-pijplijn drie keer uit met een
for-loop. - Print de shape van
clean_tax_datain elke iteratie van de pijplijnrun. - Lees het DataFrame dat is opgeslagen in het bestand
"clean_tax_data.parquet"in de variabeleto_validate. - Laat de shape van het
to_validate-DataFrame zien en vergelijk die met de shape vanclean_tax_rateom te controleren dat de data niet is gedupliceerd bij elke pijplijnrun.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
print(f"Attempt: {attempt}")
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
load(clean_tax_data, "clean_tax_data.parquet")
# Print the shape of the cleaned_tax_data DataFrame
print(f"Shape of clean_tax_data: {clean_tax_data.____}")
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")