1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python에서 Spark SQL 입문

Connected

演習

집계 도트 SQL

다음 코드는 SQL을 사용해 df라는 데이터프레임의 값을 설정합니다.

df = spark.sql("""
SELECT *, 
LEAD(time,1) OVER(PARTITION BY train_id ORDER BY time) AS time_next 
FROM schedule
""")
  • LEAD 절과 동일한 기능이 pyspark.sql.functions에 있습니다.
  • PARTITION BY, ORDER BY 절은 각각 Window 객체에서 호출하는 도트 표기법 함수로 대응됩니다.
  • 아래 임포트가 제공됩니다:
    • from pyspark.sql import Window
    • from pyspark.sql.functions import lead

指示

100 XP
  • SQL 대신 도트 표기법을 사용해 df와 동일한 결과를 포함하는 dot_df라는 데이터프레임을 만드세요.