MulaiMulai sekarang secara gratis

Menguji pipeline data secara end-to-end

Dalam latihan ini, Anda akan bekerja dengan pipeline data yang sama seperti sebelumnya, yang melakukan ekstraksi, transformasi, dan pemuatan data pajak. Anda akan berlatih menguji pipeline ini secara end-to-end untuk memastikan solusinya dapat dijalankan berkali-kali tanpa menduplikasi data yang telah ditransformasi di file parquet.

pandas telah dimuat sebagai pd, dan fungsi extract(), transform(), serta load() sudah didefinisikan.

Latihan ini adalah bagian dari kursus

ETL dan ELT di Python

Lihat Kursus

Petunjuk latihan

  • Jalankan pipeline ETL sebanyak tiga kali menggunakan for-loop.
  • Cetak shape dari clean_tax_data pada setiap iterasi proses pipeline.
  • Baca DataFrame yang disimpan di file "clean_tax_data.parquet" ke dalam variabel to_validate.
  • Keluarkan shape dari DataFrame to_validate, lalu bandingkan dengan shape clean_tax_rate untuk memastikan data tidak terduplikasi pada setiap eksekusi pipeline.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")
Edit dan Jalankan Kode