BaşlayınÜcretsiz başlayın

Vektör verisi için bir UDF oluşturma

vector türünde output adlı bir sütunu olan bir dataframe df mevcut. İlk beş satırı konsolda gösteriliyor.

Bu egzersiz, kursun bir parçasıdır

Python ile Spark SQL'e Giriş

Kursa Göz Atın

Egzersiz talimatları

  • first_udf adlı bir UDF oluştur. Bu UDF, bir vektör sütununun ilk elemanını seçer. En az bir öğe içeren bir vektör olmayan tüm öğeler için sonucu varsayılan olarak 0.0 yap ve çıktıyı float olarak dönüştür.
  • df üzerinde select işlemini kullanarak first_udf'i output sütununa uygula.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Selects the first element of a vector column
first_udf = ____(lambda x:
            ____(x.indices[0]) 
            if (x and hasattr(x, "toArray") and x.____())
            else 0.0,
            FloatType())

# Apply first_udf to the output column
df.select(____("output").alias("result")).show(5)
Kodu Düzenle ve Çalıştır