1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Spark SQL bằng Python

Connected

Bài tập

Gán nhãn dữ liệu

Một dataframe df có sẵn với các cột endword: string, features: vector, và outvec: vector. Bạn cần chọn các hàng có endword bằng "him", và thêm một cột label với giá trị số nguyên 1. Sau đó, dùng phép union để thêm một số lượng hàng tương đương có endword khác "him", sao cho các hàng bổ sung này có label = 0.

Nhắc lại: trong SQL, phép so sánh khác được thực hiện bằng <>.

Hướng dẫn

100 XP
  • Import hàm lit.
  • Chọn các hàng có endword là 'him' và thêm một cột số nguyên label với giá trị 1.
  • Chọn các hàng có endword không phải 'him' và thêm một cột số nguyên label với giá trị 0.
  • Union hai tập này, dùng số lượng ví dụ âm bằng với số lượng ví dụ dương.