1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Spark SQL bằng Python

Connected

Bài tập

Tổng hợp với dot SQL

Đoạn mã sau dùng SQL để gán giá trị cho một dataframe tên là df.

df = spark.sql("""
SELECT *, 
LEAD(time,1) OVER(PARTITION BY train_id ORDER BY time) AS time_next 
FROM schedule
""")
  • Mệnh đề LEAD có một hàm tương đương trong pyspark.sql.functions.
  • Các mệnh đề PARTITION BY và ORDER BY đều có hàm dot notation tương đương được gọi trên đối tượng Window.
  • Các import sau đã sẵn có:
    • from pyspark.sql import Window
    • from pyspark.sql.functions import lead

Hướng dẫn

100 XP
  • Tạo một dataframe tên dot_df cho ra kết quả giống hệt df, dùng dot notation thay cho SQL.