Pandas UDF
Latihan ini membahas Pandas UDF, sehingga Anda dapat berlatih sintaksnya! Saat mengerjakan latihan ini, perhatikan perbedaan antara Pyspark UDF pada latihan sebelumnya dan jenis UDF ini.
Ingat, sudah ada SparkSession bernama spark di ruang kerja Anda!
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Definisikan fungsi
add_ten_pandas()sebagai pandas UDF. - Tambahkan kolom baru ke DataFrame bernama
"10_plus"yang menerapkan pandas UDF pada kolom"value"didf. - Tampilkan DataFrame hasilnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Define a Pandas UDF that adds 10 to each element in a vectorized way
@____(DoubleType())
def add_ten_pandas(column):
return column + 10
# Apply the UDF and show the result
df.withColumn("10_plus", ____)
df.____