Memvalidasi data pipeline dengan assert
Untuk membangun unit test bagi data pipeline, penting untuk mengenal kata kunci assert, dan fungsi isinstance(). Pada latihan ini, Anda akan berlatih menggunakan kedua alat tersebut untuk memvalidasi komponen dari sebuah data pipeline.
Fungsi extract() dan transform() telah disediakan untuk Anda, bersama dengan pandas yang telah diimpor sebagai pd. Baik extract() maupun transform() mengembalikan sebuah DataFrame. Selamat mencoba!
Latihan ini adalah bagian dari kursus
ETL dan ELT di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Validate the number of columns in the DataFrame
____ len(clean_tax_data.columns) == ____