1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn PySpark

Connected

Bài tập

Truy vấn trên temp view

Trong bài tập này, bạn sẽ luyện cách đăng ký một DataFrame làm temporary SQL view trong PySpark. Temporary view là một công cụ mạnh giúp bạn truy vấn dữ liệu bằng cú pháp SQL, khiến các thao tác dữ liệu phức tạp trở nên dễ và trực quan hơn. Mục tiêu của bạn là tạo một view từ DataFrame đã cho và chạy các truy vấn SQL trên đó, một tác vụ thường gặp trong công việc ETL và ELT.

Bạn đã có sẵn SparkContext, spark, và một PySpark DataFrame, df, trong không gian làm việc.

Hướng dẫn

100 XP
  • Đăng ký một view mới tên "data_view" từ DataFrame df.
  • Chạy truy vấn SQL đã cung cấp để tính tổng lương theo vị trí công việc.