BaşlayınÜcretsiz Başlayın

Spark'ta kullanıcı tanımlı fonksiyonları kullanma

DataFrame'lerle çalışırken Spark'ın yerleşik string fonksiyonlarının gücünü gördün. Ancak belli bir noktadan sonra, fonksiyon çağrılarının karmakarışık bir yumağına dönüşmeden veriyi işlemek zorlaşır. İşte burada, DataFrame'lerimizi dönüştürmek için Kullanıcı Tanımlı Fonksiyonlar'dan yararlanabilirsin.

Bu egzersizde voter_df DataFrame'ini kullanacağız, ama first_name sütununu, ad ve ikinci ad ile değiştireceksin.

pyspark.sql.functions kütüphanesi F takma adıyla kullanılabilir. pyspark.sql.types sınıfları zaten içe aktarılmış durumdadır.

Bu egzersiz

PySpark ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • getFirstAndMiddle() fonksiyonunu düzenleyerek, isimler listesindeki son öğe dışında kalan adların, aralarında boşluk olacak şekilde birleştirilmiş bir stringini döndürmesini sağla.
  • Fonksiyonu bir kullanıcı tanımlı fonksiyon (UDF) olarak tanımla. Döndürülen tür string olmalı.
  • UDF'ini kullanarak voter_df üzerinde first_and_middle_name adlı yeni bir sütun oluştur.
  • DataFrame'i göster.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

def getFirstAndMiddle(names):
  # Return a space separated string of names
  return ' '.join(____)

# Define the method as a UDF
udfFirstAndMiddle = F.____(____, ____)

# Create a new column using your UDF
voter_df = voter_df.withColumn('first_and_middle_name', ____(____))

# Show the DataFrame
____
Kodu Düzenle ve Çalıştır