Spark'ta kullanıcı tanımlı fonksiyonları kullanma
DataFrame'lerle çalışırken Spark'ın yerleşik string fonksiyonlarının gücünü gördün. Ancak belli bir noktadan sonra, fonksiyon çağrılarının karmakarışık bir yumağına dönüşmeden veriyi işlemek zorlaşır. İşte burada, DataFrame'lerimizi dönüştürmek için Kullanıcı Tanımlı Fonksiyonlar'dan yararlanabilirsin.
Bu egzersizde voter_df DataFrame'ini kullanacağız, ama first_name sütununu, ad ve ikinci ad ile değiştireceksin.
pyspark.sql.functions kütüphanesi F takma adıyla kullanılabilir. pyspark.sql.types sınıfları zaten içe aktarılmış durumdadır.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Veri Temizleme
Egzersiz talimatları
getFirstAndMiddle()fonksiyonunu düzenleyerek, isimler listesindeki son öğe dışında kalan adların, aralarında boşluk olacak şekilde birleştirilmiş bir stringini döndürmesini sağla.- Fonksiyonu bir kullanıcı tanımlı fonksiyon (UDF) olarak tanımla. Döndürülen tür string olmalı.
- UDF'ini kullanarak
voter_dfüzerindefirst_and_middle_nameadlı yeni bir sütun oluştur. - DataFrame'i göster.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
def getFirstAndMiddle(names):
# Return a space separated string of names
return ' '.join(____)
# Define the method as a UDF
udfFirstAndMiddle = F.____(____, ____)
# Create a new column using your UDF
voter_df = voter_df.withColumn('first_and_middle_name', ____(____))
# Show the DataFrame
____