1. Learn
  2. /
  3. Courses
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Exercise

Khám phá các dòng không hợp lệ

Bạn đã lọc bỏ các dòng bằng một phép join, nhưng đôi khi bạn muốn xem xét dữ liệu không hợp lệ. Dữ liệu này có thể được lưu lại để xử lý sau hoặc để khắc phục sự cố nguồn dữ liệu.

Bạn muốn tìm phần khác biệt giữa hai DataFrame và lưu các dòng không hợp lệ.

Đối tượng spark đã được định nghĩa và pyspark.sql.functions đã được import dưới tên F. DataFrame gốc split_df và DataFrame sau khi join joined_df đều sẵn có ở trạng thái trước đó.

Instructions

100 XP
  • Xác định số lượng dòng cho từng DataFrame.
  • Tạo một DataFrame chỉ chứa các dòng không hợp lệ.
  • Xác thực số lượng dòng của DataFrame mới đúng như kỳ vọng.
  • Xác định số lượng dòng thư mục (folder) phân biệt đã bị loại bỏ.