1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Loại bỏ các hàng không hợp lệ

Sau khi bạn đã loại bỏ thành công các hàng có chú thích (comment), bạn nhận được một số thông tin về định dạng tổng quát của dữ liệu. DataFrame phải có tối thiểu 5 cột, phân tách bằng tab. Lưu ý DataFrame ban đầu của bạn chỉ có một cột, nên bạn sẽ cần tách dữ liệu theo ký tự tab (\t).

DataFrame annotations_df đã sẵn sàng, với các hàng có chú thích đã được loại bỏ. Thư viện spark.sql.functions đã được gán bí danh F. Số lượng hàng ban đầu trong DataFrame được lưu trong biến initial_count.

Hướng dẫn

100 XP
  • Tạo biến mới tmp_fields bằng cách tách cột '_c0' của DataFrame annotations_df theo ký tự tab.
  • Tạo cột mới trong annotations_df tên 'colcount' biểu thị số trường (field) được xác định ở bước trước.
  • Lọc bỏ mọi hàng trong annotations_df có ít hơn 5 trường.
  • Đếm số hàng trong DataFrame và so sánh với initial_count.