IniziaInizia gratis

Testare una data pipeline end-to-end

In questo esercizio lavorerai con la stessa data pipeline di prima, che estrae, trasforma e carica dati fiscali. Farai pratica nel testare questa pipeline end-to-end per assicurarti che la soluzione possa essere eseguita più volte senza duplicare i dati trasformati nel file parquet.

pandas è stato importato come pd e le funzioni extract(), transform() e load() sono già state definite.

Questo esercizio fa parte del corso

ETL and ELT in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Esegui la pipeline ETL tre volte usando un ciclo for.
  • Stampa la shape di clean_tax_data a ogni iterazione dell’esecuzione della pipeline.
  • Leggi il DataFrame salvato nel file "clean_tax_data.parquet" nella variabile to_validate.
  • Mostra la shape del DataFrame to_validate, confrontandola con la shape di clean_tax_rate per verificare che i dati non siano stati duplicati a ogni esecuzione della pipeline.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")
Modifica ed esegui il codice