Testare una data pipeline end-to-end

In questo esercizio lavorerai con la stessa data pipeline di prima, che estrae, trasforma e carica dati fiscali. Farai pratica nel testare questa pipeline end-to-end per assicurarti che la soluzione possa essere eseguita più volte senza duplicare i dati trasformati nel file parquet.

pandas è stato importato come pd e le funzioni extract(), transform() e load() sono già state definite.

Questo esercizio fa parte del corso

ETL and ELT in Python

Visualizza il corso

Istruzioni dell'esercizio

Esegui la pipeline ETL tre volte usando un ciclo for.
Stampa la shape di clean_tax_data a ogni iterazione dell’esecuzione della pipeline.
Leggi il DataFrame salvato nel file "clean_tax_data.parquet" nella variabile to_validate.
Mostra la shape del DataFrame to_validate, confrontandola con la shape di clean_tax_rate per verificare che i dati non siano stati duplicati a ogni esecuzione della pipeline.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")

Modifica ed esegui il codice