Membuat UDF untuk data vektor
Sebuah dataframe df tersedia, dengan kolom output bertipe vector. Lima baris pertamanya ditampilkan di konsol.
Latihan ini adalah bagian dari kursus
Pengantar Spark SQL dalam Python
Petunjuk latihan
- Buat UDF bernama
first_udf. UDF ini memilih elemen pertama dari kolom vektor. Tetapkan hasil ke nilai default 0.0 untuk item yang bukan vektor yang berisi setidaknya satu item dan ubah tipe keluarannya menjadi float. - Gunakan operasi
selectpadadfuntuk menerapkanfirst_udfke kolomoutput.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Selects the first element of a vector column
first_udf = ____(lambda x:
____(x.indices[0])
if (x and hasattr(x, "toArray") and x.____())
else 0.0,
FloatType())
# Apply first_udf to the output column
df.select(____("output").alias("result")).show(5)