1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn PySpark

Connected

Bài tập

Phân tích với SQL trên DataFrame

Truy vấn SQL ngắn gọn và dễ chạy hơn so với thao tác trực tiếp trên DataFrame. Nhưng để áp dụng truy vấn SQL lên một DataFrame, trước tiên bạn cần tạo một temporary view (bảng tạm) từ DataFrame đó, rồi chạy truy vấn SQL trên bảng vừa tạo.

Bạn đã có sẵn SparkContext spark và salaries_df trong không gian làm việc.

Hướng dẫn

100 XP
  • Tạo bảng tạm "salaries_table" từ DataFrame salaries_df.
  • Viết truy vấn để lấy cột "job_title" cho các bản ghi có company_location ở Canada ("CA").
  • Áp dụng truy vấn SQL và tạo DataFrame mới canada_titles.
  • Lấy phần tóm tắt của bảng.