Pengujian unit untuk data pipeline dengan fixtures
Pada video sebelumnya, Anda mempelajari bahwa pengujian unit dapat meningkatkan kepercayaan terhadap data pipeline Anda, dan bahkan membantu menangkap bug selama pengembangan. Pada latihan ini, Anda akan berlatih menulis fixtures dan pengujian unit, menggunakan pustaka pytest dan assert.
Fungsi transform yang akan Anda uji dengan pengujian unit ditunjukkan di bawah ini sebagai referensi. pandas telah diimpor sebagai pd, dan pustaka pytest() sudah dimuat dan siap digunakan.
def transform(raw_data):
raw_data["tax_rate"] = raw_data["total_taxes_paid"] / raw_data["total_taxable_income"]
raw_data.set_index("industry_name", inplace=True)
return raw_data
Latihan ini adalah bagian dari kursus
ETL dan ELT di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Define a pytest fixture
@pytest.fixture()
____ ____():
raw_data = pd.read_csv("raw_tax_data.csv")
# Transform the raw_data, store in clean_data DataFrame, and return the variable
clean_data = ____
return ____