Spark'ta kullanıcı tanımlı fonksiyonları kullanma
DataFrame'lerle çalışırken Spark'ın yerleşik string fonksiyonlarının gücünü gördün. Ancak belli bir noktadan sonra, fonksiyon çağrılarının karmakarışık bir yumağına dönüşmeden veriyi işlemek zorlaşır. İşte burada, DataFrame'lerimizi dönüştürmek için Kullanıcı Tanımlı Fonksiyonlar'dan yararlanabilirsin.
Bu egzersizde voter_df DataFrame'ini kullanacağız, ama first_name sütununu, ad ve ikinci ad ile değiştireceksin.
pyspark.sql.functions kütüphanesi F takma adıyla kullanılabilir. pyspark.sql.types sınıfları zaten içe aktarılmış durumdadır.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
getFirstAndMiddle()fonksiyonunu düzenleyerek, isimler listesindeki son öğe dışında kalan adların, aralarında boşluk olacak şekilde birleştirilmiş bir stringini döndürmesini sağla.- Fonksiyonu bir kullanıcı tanımlı fonksiyon (UDF) olarak tanımla. Döndürülen tür string olmalı.
- UDF'ini kullanarak
voter_dfüzerindefirst_and_middle_nameadlı yeni bir sütun oluştur. - DataFrame'i göster.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
def getFirstAndMiddle(names):
# Return a space separated string of names
return ' '.join(____)
# Define the method as a UDF
udfFirstAndMiddle = F.____(____, ____)
# Create a new column using your UDF
voter_df = voter_df.withColumn('first_and_middle_name', ____(____))
# Show the DataFrame
____