1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Phần 2: Truy vấn SQL trên DataFrame

DataFrame fifa_df mà chúng ta đã tạo có thêm thông tin về kiểu dữ liệu và tên các cột đi kèm. Thông tin bổ sung này cho phép PySpark SQL chạy các truy vấn SQL trên DataFrame. Truy vấn SQL ngắn gọn và dễ chạy hơn so với các thao tác DataFrame. Nhưng để áp dụng truy vấn SQL lên DataFrame, trước tiên bạn cần tạo một chế độ xem tạm (temporary view) của DataFrame như một bảng, rồi chạy truy vấn SQL trên bảng đó (Chạy truy vấn SQL theo lập trình).

Trong phần thứ hai, bạn sẽ tạo một bảng tạm từ DataFrame fifa_df và chạy các truy vấn SQL để trích xuất cột 'Age' của các cầu thủ đến từ Germany.

Bạn đã có sẵn SparkContext spark và fifa_df trong không gian làm việc của mình.

Hướng dẫn

100 XP
  • Tạo bảng tạm fifa_df_table từ DataFrame fifa_df.
  • Xây dựng một "query" để trích xuất cột "Age" của các cầu thủ Germany trong fifa_df_table.
  • Áp dụng SQL "query" và tạo một DataFrame mới fifa_df_germany_age.
  • Tính các thống kê cơ bản của DataFrame vừa tạo.