1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Chọn lọc và làm sạch DataFrame trong PySpark

Sau khi kiểm tra dữ liệu, bạn thường cần làm sạch dữ liệu, chủ yếu bao gồm chọn lọc (subsetting), đổi tên cột, loại bỏ các hàng trùng lặp, v.v. PySpark DataFrame API cung cấp nhiều toán tử để thực hiện điều này. Trong bài tập này, nhiệm vụ của bạn là chọn các cột 'name', 'sex' và 'date of birth' từ DataFrame people_df, loại bỏ mọi hàng trùng lặp khỏi tập dữ liệu đó và đếm số hàng trước và sau bước loại bỏ trùng lặp.

Lưu ý: Bạn đã có sẵn SparkSession spark và DataFrame people_df trong không gian làm việc.

Hướng dẫn

100 XP
  • Chọn các cột 'name', 'sex' và 'date of birth' từ people_df và tạo DataFrame people_df_sub.
  • In 10 quan sát đầu tiên trong DataFrame people_df_sub.
  • Loại bỏ các bản ghi trùng lặp từ DataFrame people_df_sub và tạo DataFrame people_df_sub_nodup.
  • Có bao nhiêu hàng trước và sau khi loại bỏ trùng lặp?