Testare una data pipeline end-to-end
In questo esercizio lavorerai con la stessa data pipeline di prima, che estrae, trasforma e carica dati fiscali. Farai pratica nel testare questa pipeline end-to-end per assicurarti che la soluzione possa essere eseguita più volte senza duplicare i dati trasformati nel file parquet.
pandas è stato importato come pd e le funzioni extract(), transform() e load() sono già state definite.
Questo esercizio fa parte del corso
ETL and ELT in Python
Istruzioni dell'esercizio
- Esegui la pipeline ETL tre volte usando un ciclo
for. - Stampa la shape di
clean_tax_dataa ogni iterazione dell’esecuzione della pipeline. - Leggi il DataFrame salvato nel file
"clean_tax_data.parquet"nella variabileto_validate. - Mostra la shape del DataFrame
to_validate, confrontandola con la shape diclean_tax_rateper verificare che i dati non siano stati duplicati a ogni esecuzione della pipeline.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
print(f"Attempt: {attempt}")
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
load(clean_tax_data, "clean_tax_data.parquet")
# Print the shape of the cleaned_tax_data DataFrame
print(f"Shape of clean_tax_data: {clean_tax_data.____}")
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")