Toplulaştırma nokta SQL
Aşağıdaki kod, df adlı bir dataframe'in değerini SQL kullanarak ayarlar.
df = spark.sql("""
SELECT *,
LEAD(time,1) OVER(PARTITION BY train_id ORDER BY time) AS time_next
FROM schedule
""")
LEADifadesininpyspark.sql.functionsiçinde karşılık gelen bir fonksiyonu vardır.PARTITION BYveORDER BYifadelerinin her birinin,Windownesnesi üzerinde çağrılan eşdeğer bir nokta gösterimi fonksiyonu vardır.- Aşağıdaki içe aktarmalar hazırdır:
- from pyspark.sql import Window
- from pyspark.sql.functions import lead
Bu egzersiz
Python ile Spark SQL'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
- SQL yerine nokta gösterimini kullanarak,
dfile aynı sonucu içerendot_dfadlı bir dataframe oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Obtain the identical result using dot notation
dot_df = df.withColumn('time_next', ____('time', 1)
.over(____.____('train_id')
.____('time')))