1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Lọc DataFrame của bạn

Trong bài trước, bạn đã trích chọn dữ liệu bằng toán tử select() — chủ yếu dùng để trích chọn theo cột của DataFrame. Vậy nếu bạn muốn trích chọn DataFrame dựa trên một điều kiện thì sao (ví dụ: chọn tất cả các hàng có giới tính là Female). Trong bài này, bạn sẽ lọc các hàng trong DataFrame people_df mà 'sex' là female và male để tạo hai tập dữ liệu khác nhau. Cuối cùng, bạn sẽ đếm số hàng trong từng tập dữ liệu đó.

Lưu ý, bạn đã có sẵn SparkSession spark và DataFrame people_df trong không gian làm việc của mình.

Hướng dẫn

100 XP
  • Lọc DataFrame people_df để chọn tất cả các hàng có giới tính female vào DataFrame people_df_female.
  • Lọc DataFrame people_df để chọn tất cả các hàng có giới tính male vào DataFrame people_df_male.
  • Đếm số hàng trong các DataFrame people_df_female và people_df_male.