1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Xác thực các hàng qua phép join

Một cách khác để lọc dữ liệu là dùng phép join để loại bỏ các bản ghi không hợp lệ. Bạn sẽ cần kiểm tra xem tên thư mục có đúng như mong đợi dựa trên DataFrame valid_folders_df đã cho. DataFrame split_df vẫn như lúc bạn để lại, với một nhóm các cột đã tách.

Đối tượng spark đã sẵn có, và pyspark.sql.functions đã được import với tên F.

Hướng dẫn

100 XP
  • Đổi tên cột _c0 thành folder trên DataFrame valid_folders_df.
  • Đếm số hàng trong split_df.
  • Join hai DataFrame theo tên thư mục và đặt DataFrame kết quả là joined_df. Hãy nhớ broadcast DataFrame nhỏ hơn.
  • Kiểm tra số hàng còn lại trong DataFrame và so sánh.