BaşlayınÜcretsiz Başlayın

Toplulaştırma nokta SQL

Aşağıdaki kod, df adlı bir dataframe'in değerini SQL kullanarak ayarlar.

df = spark.sql("""
SELECT *, 
LEAD(time,1) OVER(PARTITION BY train_id ORDER BY time) AS time_next 
FROM schedule
""")
  • LEAD ifadesinin pyspark.sql.functions içinde karşılık gelen bir fonksiyonu vardır.
  • PARTITION BY ve ORDER BY ifadelerinin her birinin, Window nesnesi üzerinde çağrılan eşdeğer bir nokta gösterimi fonksiyonu vardır.
  • Aşağıdaki içe aktarmalar hazırdır:
    • from pyspark.sql import Window
    • from pyspark.sql.functions import lead

Bu egzersiz

Python ile Spark SQL'e Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • SQL yerine nokta gösterimini kullanarak, df ile aynı sonucu içeren dot_df adlı bir dataframe oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Obtain the identical result using dot notation 
dot_df = df.withColumn('time_next', ____('time', 1)
        .over(____.____('train_id')
        .____('time')))
Kodu Düzenle ve Çalıştır