Integer dalam UDF PySpark
Latihan ini membahas UDF agar Anda memahami pembuatan fungsi di PySpark! Saat mengerjakan latihan ini, pikirkan bagian apa yang dapat digantikan dalam alur kerja pembersihan data.
Ingat, sudah ada SparkSession bernama spark di lingkungan kerja Anda!
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Daftarkan fungsi
age_categorysebagai UDF bernamaage_category_udf. - Tambahkan kolom baru ke DataFrame
dfbernama"category"yang menerapkan UDF untuk mengategorikan orang berdasarkan usia. Argumen untukage_category_udf()sudah disediakan untuk Anda. - Tampilkan DataFrame hasilnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())
# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))
# Show df
age_category_df_2.____