Menguji pipeline data secara end-to-end
Dalam latihan ini, Anda akan bekerja dengan pipeline data yang sama seperti sebelumnya, yang melakukan ekstraksi, transformasi, dan pemuatan data pajak. Anda akan berlatih menguji pipeline ini secara end-to-end untuk memastikan solusinya dapat dijalankan berkali-kali tanpa menduplikasi data yang telah ditransformasi di file parquet.
pandas telah dimuat sebagai pd, dan fungsi extract(), transform(), serta load() sudah didefinisikan.
Latihan ini adalah bagian dari kursus
ETL dan ELT di Python
Petunjuk latihan
- Jalankan pipeline ETL sebanyak tiga kali menggunakan
for-loop. - Cetak shape dari
clean_tax_datapada setiap iterasi proses pipeline. - Baca DataFrame yang disimpan di file
"clean_tax_data.parquet"ke dalam variabelto_validate. - Keluarkan shape dari DataFrame
to_validate, lalu bandingkan dengan shapeclean_tax_rateuntuk memastikan data tidak terduplikasi pada setiap eksekusi pipeline.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
print(f"Attempt: {attempt}")
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
load(clean_tax_data, "clean_tax_data.parquet")
# Print the shape of the cleaned_tax_data DataFrame
print(f"Shape of clean_tax_data: {clean_tax_data.____}")
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")