1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Câu truy vấn SQL để lọc Table

Trong bài tập trước, bạn đã chạy một truy vấn SQL đơn giản trên một DataFrame. Bạn có thể viết các truy vấn phức tạp hơn để lấy đúng kết quả mong muốn và dùng cho các phân tích tiếp theo như trực quan hóa dữ liệu và Machine Learning. Trong bài này, bạn sẽ dùng bảng tạm people mà bạn đã tạo trước đó, lọc các hàng có "sex" là male và female và tạo hai DataFrame.

Lưu ý: "solution" phân biệt chữ hoa/thường đối với các lệnh SQL (ví dụ, chỉ chấp nhận FROM chứ không phải from). "solution" chỉ chấp nhận "==" chứ không phải "=".

Hãy nhớ, bạn đã có SparkSession spark và bảng tạm people sẵn trong không gian làm việc của bạn.

Hướng dẫn

100 XP
  • Lọc bảng people để chọn tất cả các hàng có sex là female vào DataFrame people_female_df.
  • Lọc bảng people để chọn tất cả các hàng có sex là male vào DataFrame people_male_df.
  • Đếm số hàng trong cả hai DataFrame people_female và people_male.