1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. ETL và ELT với Python

Connected

Bài tập

Xác thực đường ống dữ liệu tại các "điểm kiểm tra"

Trong bài tập này, bạn sẽ làm việc với một đường ống dữ liệu trích xuất dữ liệu thuế từ tệp CSV, tạo một cột mới, lọc các hàng dựa trên thu nhập chịu thuế trung bình và ghi dữ liệu ra tệp parquet.

pandas đã được nạp với bí danh pd, và các hàm extract(), transform() và load() đã được định nghĩa sẵn. Bạn sẽ dùng các hàm này để xác thực đường ống dữ liệu tại nhiều điểm kiểm tra trong suốt quá trình thực thi.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • In ra kích thước của các DataFrame raw_tax_data và clean_tax_data và quan sát sự khác biệt về số chiều.