Pattern architetturali per data pipeline
Quando crei data pipeline, è buona pratica separare i file in cui le funzioni vengono definite da quelli in cui vengono eseguite.
In questo esercizio, farai pratica nell'importare in memoria i componenti di una pipeline per poi usare queste funzioni per eseguire la pipeline end-to-end. Il progetto ha il seguente formato: pipeline_utils contiene le funzioni extract(), transform(), e load() che verranno usate per eseguire la pipeline.
> ls
etl_pipeline.py
pipeline_utils.py
Questo esercizio fa parte del corso
ETL and ELT in Python
Istruzioni dell'esercizio
- Importa le funzioni
extract,transformeloaddal modulopipeline_utils. - Usa le funzioni importate per eseguire la data pipeline end-to-end.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the extract, transform, and load functions from pipeline_utils
____
# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")