1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. ETL và ELT với Python

Connected

Bài tập

Kiểm thử end-to-end một pipeline dữ liệu

Trong bài tập này, bạn sẽ làm việc với cùng một pipeline dữ liệu như trước, pipeline này thực hiện extract, transform và load dữ liệu thuế. Bạn sẽ luyện tập kiểm thử end-to-end pipeline này để đảm bảo giải pháp có thể chạy nhiều lần mà không tạo dữ liệu trùng lặp trong tệp parquet.

pandas đã được nạp với bí danh pd, và các hàm extract(), transform() và load() đã được định nghĩa sẵn.

Hướng dẫn

100 XP
  • Chạy pipeline ETL ba lần bằng một vòng lặp for.
  • In kích thước (shape) của clean_tax_data ở mỗi lượt chạy của pipeline.
  • Đọc DataFrame được lưu trong tệp "clean_tax_data.parquet" vào biến to_validate.
  • Xuất ra shape của DataFrame to_validate, rồi so sánh với shape của clean_tax_rate để đảm bảo dữ liệu không bị trùng lặp sau mỗi lần chạy pipeline.