1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Spark SQL bằng Python

Connected

Bài tập

Tạo UDF cho dữ liệu vector

Có sẵn một dataframe df với cột output kiểu vector. Năm hàng đầu tiên đã được hiển thị trên bảng điều khiển.

Hướng dẫn

100 XP
  • Tạo một UDF tên là first_udf. Hàm này chọn phần tử đầu tiên của một cột vector. Đặt giá trị mặc định là 0.0 cho mọi mục không phải là vector chứa ít nhất một phần tử và ép kiểu đầu ra thành float.
  • Dùng phép toán select trên df để áp dụng first_udf cho cột output.