MulaiMulai sekarang secara gratis

Integer dalam UDF PySpark

Latihan ini membahas UDF agar Anda memahami pembuatan fungsi di PySpark! Saat mengerjakan latihan ini, pikirkan bagian apa yang dapat digantikan dalam alur kerja pembersihan data.

Ingat, sudah ada SparkSession bernama spark di lingkungan kerja Anda!

Latihan ini adalah bagian dari kursus

Pengantar PySpark

Lihat Kursus

Petunjuk latihan

  • Daftarkan fungsi age_category sebagai UDF bernama age_category_udf.
  • Tambahkan kolom baru ke DataFrame df bernama "category" yang menerapkan UDF untuk mengategorikan orang berdasarkan usia. Argumen untuk age_category_udf() sudah disediakan untuk Anda.
  • Tampilkan DataFrame hasilnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())

# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))

# Show df
age_category_df_2.____
Edit dan Jalankan Kode