Pola arsitektur data pipeline

Saat membangun data pipeline, sebaiknya pisahkan berkas tempat fungsi didefinisikan dari tempat fungsi dijalankan.

Dalam latihan ini, Anda akan berlatih mengimpor komponen pipeline ke memori sebelum menggunakan fungsi-fungsi tersebut untuk menjalankan pipeline secara end-to-end. Proyeknya memiliki format berikut, di mana pipeline_utils menyimpan fungsi extract(), transform(), dan load() yang akan digunakan untuk menjalankan pipeline.

> ls
 etl_pipeline.py
 pipeline_utils.py

Latihan ini adalah bagian dari kursus

ETL dan ELT di Python

Lihat Kursus

Petunjuk latihan

Impor fungsi extract, transform, dan load dari modul pipeline_utils.
Gunakan fungsi-fungsi yang diimpor untuk menjalankan data pipeline secara end-to-end.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the extract, transform, and load functions from pipeline_utils
____

# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")

Edit dan Jalankan Kode