BaşlayınÜcretsiz başlayın

Spark'ta kullanıcı tanımlı fonksiyonları kullanma

DataFrame'lerle çalışırken Spark'ın yerleşik string fonksiyonlarının gücünü gördün. Ancak belli bir noktadan sonra, fonksiyon çağrılarının karmakarışık bir yumağına dönüşmeden veriyi işlemek zorlaşır. İşte burada, DataFrame'lerimizi dönüştürmek için Kullanıcı Tanımlı Fonksiyonlar'dan yararlanabilirsin.

Bu egzersizde voter_df DataFrame'ini kullanacağız, ama first_name sütununu, ad ve ikinci ad ile değiştireceksin.

pyspark.sql.functions kütüphanesi F takma adıyla kullanılabilir. pyspark.sql.types sınıfları zaten içe aktarılmış durumdadır.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Veri Temizleme

Kursa Göz Atın

Egzersiz talimatları

  • getFirstAndMiddle() fonksiyonunu düzenleyerek, isimler listesindeki son öğe dışında kalan adların, aralarında boşluk olacak şekilde birleştirilmiş bir stringini döndürmesini sağla.
  • Fonksiyonu bir kullanıcı tanımlı fonksiyon (UDF) olarak tanımla. Döndürülen tür string olmalı.
  • UDF'ini kullanarak voter_df üzerinde first_and_middle_name adlı yeni bir sütun oluştur.
  • DataFrame'i göster.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

def getFirstAndMiddle(names):
  # Return a space separated string of names
  return ' '.join(____)

# Define the method as a UDF
udfFirstAndMiddle = F.____(____, ____)

# Create a new column using your UDF
voter_df = voter_df.withColumn('first_and_middle_name', ____(____))

# Show the DataFrame
____
Kodu Düzenle ve Çalıştır