Memvalidasi pipeline data pada "checkpoint"

Dalam latihan ini, Anda akan bekerja dengan pipeline data yang mengekstrak data pajak dari berkas CSV, membuat kolom baru, menyaring baris berdasarkan rata-rata penghasilan kena pajak, dan menyimpan data ke berkas parquet.

pandas telah dimuat sebagai pd, dan fungsi extract(), transform(), serta load() sudah didefinisikan. Anda akan menggunakan fungsi-fungsi ini untuk memvalidasi pipeline data pada berbagai checkpoint selama eksekusinya.

Latihan ini merupakan bagian dari kursus

ETL dan ELT di Python

Lihat Kursus

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)

# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")

Edit dan Jalankan Kode