1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

SQL và Parquet

Các tệp Parquet rất phù hợp để làm kho dữ liệu nền cho các truy vấn SQL trong Spark. Dù bạn có thể chạy các truy vấn tương tự trực tiếp bằng các hàm Python của Spark, đôi khi chạy truy vấn SQL song song với các lựa chọn trong Python sẽ dễ hơn.

Trong ví dụ này, bạn sẽ đọc tệp Parquet đã tạo ở bài trước và đăng ký nó như một bảng SQL. Sau khi đăng ký, bạn sẽ chạy một truy vấn nhanh trên bảng đó (tức là trên tệp Parquet).

Đối tượng spark và tệp AA_DFW_ALL.parquet đã được cung cấp sẵn cho bạn.

Hướng dẫn

100 XP
  • Nạp tệp AA_DFW_ALL.parquet vào flights_df.
  • Dùng phương thức createOrReplaceTempView để đặt bí danh cho bảng flights.
  • Chạy một truy vấn Spark SQL trên bảng flights.