Agrégat SQL en notation par points
Le code suivant utilise du SQL pour définir la valeur d’un DataFrame appelé df.
df = spark.sql("""
SELECT *,
LEAD(time,1) OVER(PARTITION BY train_id ORDER BY time) AS time_next
FROM schedule
""")
- La clause
LEADpossède une fonction équivalente danspyspark.sql.functions. - Les clauses
PARTITION BYetORDER BYont chacune une fonction équivalente en notation par points, à appeler sur l’objetWindow. - Les imports suivants sont disponibles :
- from pyspark.sql import Window
- from pyspark.sql.functions import lead
Cet exercice fait partie du cours
Introduction à Spark SQL en Python
Instructions
- Créez un DataFrame nommé
dot_dfqui produise exactement le même résultat quedf, en utilisant la notation par points au lieu du SQL.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Obtain the identical result using dot notation
dot_df = df.withColumn('time_next', ____('time', 1)
.over(____.____('train_id')
.____('time')))