1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do Spark SQL v Pythonu

Connected

cvičení

Agregace stejného sloupce dvakrát

V některých případech je tečková notace těžkopádnější než SQL. Tento příklad vypočítá první a poslední čas pro každou vlakovou linku. Následující kód to řeší pomocí tečkové notace.

from pyspark.sql.functions import min, max, col
expr = [min(col("time")).alias('start'), max(col("time")).alias('end')]
dot_df = df.groupBy("train_id").agg(*expr)
dot_df.show()
+--------+-----+-----+
|train_id|start|  end|
+--------+-----+-----+
|     217|6:06a|6:59a|
|     324|7:59a|9:05a|
+--------+-----+-----+

Tvým úkolem je dosáhnout stejného výsledku pomocí SQL dotazu. DataFrame df je zaregistrován jako tabulka s názvem schedule.

Pokyny

100 XP
  • Napiš SQL dotaz, který vrátí stejný výsledek jako dotaz s tečkovou notací.