1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Pythonで学ぶ Spark SQL 入門

Connected

Bài tập

同じ列を2回集計する

ドット記法よりもSQLのほうが扱いやすい場合があります。この演習では、各路線の最初と最後の時刻を計算します。次のコードはドット記法でそれを実行しています。

from pyspark.sql.functions import min, max, col
expr = [min(col("time")).alias('start'), max(col("time")).alias('end')]
dot_df = df.groupBy("train_id").agg(*expr)
dot_df.show()
+--------+-----+-----+
|train_id|start|  end|
+--------+-----+-----+
|     217|6:06a|6:59a|
|     324|7:59a|9:05a|
+--------+-----+-----+

この結果と同じものを、SQLクエリで実現してください。データフレーム df は schedule という名前のテーブルとして登録されています。

Hướng dẫn

100 XP
  • ドット記法のクエリと同一の結果を返すSQLクエリを書いてください。