Aan de slagGa gratis aan de slag

Een datapijplijn end-to-end testen

In deze oefening werk je met dezelfde datapijplijn als eerder, die belastingdata extraheert, transformeert en laadt. Je gaat oefenen met het end-to-end testen van deze pijplijn, zodat de oplossing meerdere keren kan draaien zonder de getransformeerde data in het parquet-bestand te dupliceren.

pandas is geladen als pd, en de functies extract(), transform() en load() zijn al gedefinieerd.

Deze oefening maakt deel uit van de cursus

ETL en ELT in Python

Cursus bekijken

Oefeninstructies

  • Voer de ETL-pijplijn drie keer uit met een for-loop.
  • Print de shape van clean_tax_data in elke iteratie van de pijplijnrun.
  • Lees het DataFrame dat is opgeslagen in het bestand "clean_tax_data.parquet" in de variabele to_validate.
  • Laat de shape van het to_validate-DataFrame zien en vergelijk die met de shape van clean_tax_rate om te controleren dat de data niet is gedupliceerd bij elke pijplijnrun.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")
Code bewerken en uitvoeren