1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. ETL và ELT với Python

Connected

Bài tập

Unit test cho data pipeline với fixtures

Trong video trước, bạn đã học rằng unit test giúp tăng độ tin cậy cho data pipeline và còn có thể phát hiện lỗi trong suốt quá trình phát triển. Trong bài tập này, bạn sẽ luyện viết cả fixtures và unit tests, sử dụng thư viện pytest và assert.

Hàm transform mà bạn sẽ viết unit test xoay quanh được hiển thị bên dưới để tham khảo. pandas đã được import với bí danh pd, và thư viện pytest() đã được nạp sẵn để sử dụng.

def transform(raw_data):
    raw_data["tax_rate"] = raw_data["total_taxes_paid"] / raw_data["total_taxable_income"]
    raw_data.set_index("industry_name", inplace=True)
    return raw_data

Hướng dẫn 1/2

undefined XP
    1
    2
  • Tạo một fixture pytest tên là clean_tax_data.
  • Áp dụng hàm transform() lên tập dữ liệu raw_data, lưu kết quả vào biến clean_data và trả về biến này.