1. Învăţa
  2. /
  3. Courses
  4. /
  5. Python에서 Spark SQL 입문

Connected

exercise

같은 열을 두 번 집계하기

점 표기법이 SQL보다 번거로운 경우도 있습니다. 이 연습 문제에서는 각 열차 노선의 첫 시간과 마지막 시간을 계산합니다. 아래 코드는 점 표기법으로 이를 수행합니다.

from pyspark.sql.functions import min, max, col
expr = [min(col("time")).alias('start'), max(col("time")).alias('end')]
dot_df = df.groupBy("train_id").agg(*expr)
dot_df.show()
+--------+-----+-----+
|train_id|start|  end|
+--------+-----+-----+
|     217|6:06a|6:59a|
|     324|7:59a|9:05a|
+--------+-----+-----+

이와 동일한 결과를 SQL 쿼리로 얻어 보세요. 데이터프레임 df는 schedule이라는 이름의 테이블로 등록되어 있습니다.

Instrucţiuni

100 XP
  • 점 표기법 쿼리와 동일한 결과를 내는 SQL 쿼리를 작성하세요.