1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn PySpark

Connected

Bài tập

Chạy SQL trên DataFrame

DataFrame có thể được thao tác dễ dàng bằng truy vấn SQL trong PySpark. Phương thức .sql() trong SparkSession cho phép ứng dụng chạy truy vấn SQL theo lập trình và trả về kết quả dưới dạng một DataFrame khác. Trong bài tập này, bạn sẽ tạo một bảng tạm từ DataFrame mà bạn đã tạo trước đó, sau đó viết một truy vấn để chọn tên của mọi người từ bảng tạm và gán kết quả vào một DataFrame mới.

Lưu ý, bạn đã có sẵn SparkSession spark và DataFrame df trong không gian làm việc.

Hướng dẫn

100 XP
  • Tạo một bảng tạm tên "people" từ DataFrame df.
  • Viết truy vấn để chọn tên của mọi người từ bảng tạm people.
  • Gán kết quả truy vấn của Spark vào một DataFrame mới gọi là people_df_names.
  • In ra 10 tên đầu tiên từ DataFrame people_df_names.