MulaiMulai sekarang secara gratis

Membuat UDF untuk data vektor

Sebuah dataframe df tersedia, dengan kolom output bertipe vector. Lima baris pertamanya ditampilkan di konsol.

Latihan ini adalah bagian dari kursus

Pengantar Spark SQL dalam Python

Lihat Kursus

Petunjuk latihan

  • Buat UDF bernama first_udf. UDF ini memilih elemen pertama dari kolom vektor. Tetapkan hasil ke nilai default 0.0 untuk item yang bukan vektor yang berisi setidaknya satu item dan ubah tipe keluarannya menjadi float.
  • Gunakan operasi select pada df untuk menerapkan first_udf ke kolom output.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Selects the first element of a vector column
first_udf = ____(lambda x:
            ____(x.indices[0]) 
            if (x and hasattr(x, "toArray") and x.____())
            else 0.0,
            FloatType())

# Apply first_udf to the output column
df.select(____("output").alias("result")).show(5)
Edit dan Jalankan Kode