1. Learn
  2. /
  3. Courses
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Exercise

Chạy truy vấn SQL bằng lập trình

Bạn có thể thao tác DataFrame rất dễ dàng bằng các truy vấn SQL trong PySpark. Hàm sql() trong SparkSession cho phép ứng dụng chạy truy vấn SQL một cách lập trình và trả về kết quả dưới dạng một DataFrame khác. Trong bài tập này, bạn sẽ tạo một bảng tạm từ DataFrame mà bạn đã tạo trước đó, sau đó viết một truy vấn để chọn tên của những người trong bảng tạm và gán kết quả vào một DataFrame mới.

Hãy nhớ rằng bạn đã có sẵn SparkSession spark và một DataFrame trong không gian làm việc của mình.

Instructions

100 XP
  • Tạo bảng tạm people.
  • Tạo query để chọn tên của những người từ bảng tạm people.
  • Gán kết quả của query của Spark vào một DataFrame mới - people_df_names.
  • In 10 tên đầu tiên từ DataFrame people_df_names.