1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do Spark SQL v Pythonu

Connected

cvičení

Agregace: dot notace vs. SQL

Následující kód používá SQL k nastavení hodnoty dataframu df.

df = spark.sql("""
SELECT *, 
LEAD(time,1) OVER(PARTITION BY train_id ORDER BY time) AS time_next 
FROM schedule
""")
  • Klauzule LEAD má ekvivalentní funkci v pyspark.sql.functions.
  • Klauzule PARTITION BY a ORDER BY mají každá ekvivalentní funkci v dot notaci, která se volá na objektu Window.
  • K dispozici jsou následující importy:
    • from pyspark.sql import Window
    • from pyspark.sql.functions import lead

Pokyny

100 XP
  • Vytvoř dataframe dot_df, který obsahuje stejný výsledek jako df, ale místo SQL použij dot notaci.