집계 도트 SQL

다음 코드는 SQL을 사용해 df라는 데이터프레임의 값을 설정합니다.

df = spark.sql("""
SELECT *, 
LEAD(time,1) OVER(PARTITION BY train_id ORDER BY time) AS time_next 
FROM schedule
""")

LEAD 절과 동일한 기능이 pyspark.sql.functions에 있습니다.
PARTITION BY, ORDER BY 절은 각각 Window 객체에서 호출하는 도트 표기법 함수로 대응됩니다.
아래 임포트가 제공됩니다:
- from pyspark.sql import Window
- from pyspark.sql.functions import lead

SQL 대신 도트 표기법을 사용해 df와 동일한 결과를 포함하는 dot_df라는 데이터프레임을 만드세요.