1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. ETL và ELT với Python

Connected

Bài tập

Lọc DataFrame trong pandas

Khi dữ liệu đã được trích xuất từ hệ thống nguồn, đã đến lúc bạn biến đổi nó! Thường thì dữ liệu nguồn có nhiều thông tin hơn mức cần cho các bài toán phía sau. Trong trường hợp đó, bạn nên giảm chiều dữ liệu trong giai đoạn "transform" của pipeline dữ liệu.

pandas đã được import dưới tên pd, và hàm extract() có sẵn để tải một DataFrame từ đường dẫn được truyền vào.

Hướng dẫn

100 XP
  • Dùng hàm extract() để tải DataFrame được lưu ở đường dẫn "sales_data.parquet".
  • Cập nhật hàm transform() để trả về tất cả các hàng và cột có "Quantity Ordered" lớn hơn 1.
  • Lọc thêm DataFrame clean_data để chỉ giữ các cột "Order Date", "Quantity Ordered" và "Purchase Address".
  • Trả về DataFrame đã lọc.