1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý Dữ liệu Khuyết trong Python

Connected

Bài tập

Bù khuyết cho biến phân loại bằng KNN

Khi tất cả các cột phân loại trong DataFrame đã được chuyển thành giá trị thứ bậc (ordinal), DataFrame đã sẵn sàng để bù khuyết. Bù khuyết bằng các mô hình thống kê như K-Nearest Neighbors (KNN) thường cho kết quả tốt hơn.

Trong bài tập này, bạn sẽ

  1. Dùng hàm KNN() từ fancyimpute để bù các giá trị thiếu trong DataFrame đã mã hóa thứ bậc users.
  2. Chuyển các giá trị thứ bậc về lại nhãn phân loại ban đầu bằng phương thức .inverse_transform() của bộ mã hóa thứ bậc.

Nhớ rằng, ordinal_enc_dict lưu OrdinalEncoder() của sklearn cho từng cột. DataFrame users lưu các giá trị đã mã hóa (giá trị thứ bậc) cho mỗi cột.

Hàm KNN(), từ điển các OrdinalEncoder() ordinal_enc_dict và DataFrame users đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Bù khuyết DataFrame users bằng phương thức fit_transform() của KNN_imputer. Làm tròn các giá trị đã biến đổi để thu được số nguyên.
  • Lặp qua các cột trong users.
  • Chọn OrdinalEncoder() của cột từ ordinal_enc_dict và thực hiện .inverse_transform() trên mảng đã được đổi hình dạng reshaped.