Pola arsitektur data pipeline
Saat membangun data pipeline, sebaiknya pisahkan berkas tempat fungsi didefinisikan dari tempat fungsi dijalankan.
Dalam latihan ini, Anda akan berlatih mengimpor komponen pipeline ke memori sebelum menggunakan fungsi-fungsi tersebut untuk menjalankan pipeline secara end-to-end. Proyeknya memiliki format berikut, di mana pipeline_utils menyimpan fungsi extract(), transform(), dan load() yang akan digunakan untuk menjalankan pipeline.
> ls
etl_pipeline.py
pipeline_utils.py
Latihan ini adalah bagian dari kursus
ETL dan ELT di Python
Petunjuk latihan
- Impor fungsi
extract,transform, danloaddari modulpipeline_utils. - Gunakan fungsi-fungsi yang diimpor untuk menjalankan data pipeline secara end-to-end.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the extract, transform, and load functions from pipeline_utils
____
# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")