Memvalidasi pipeline data pada "checkpoint"
Dalam latihan ini, Anda akan bekerja dengan pipeline data yang mengekstrak data pajak dari berkas CSV, membuat kolom baru, menyaring baris berdasarkan rata-rata penghasilan kena pajak, dan menyimpan data ke berkas parquet.
pandas telah dimuat sebagai pd, dan fungsi extract(), transform(), serta load() sudah didefinisikan. Anda akan menggunakan fungsi-fungsi ini untuk memvalidasi pipeline data pada berbagai checkpoint selama eksekusinya.
Latihan ini adalah bagian dari kursus
ETL dan ELT di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")