1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý Dữ liệu Khuyết trong Python

Connected

Bài tập

Mã hóa thứ bậc cho một cột phân loại

Việc bù khuyết giá trị phân loại cần thêm vài bước so với bù khuyết giá trị số. Trước hết, bạn cần chuyển chúng thành giá trị số vì không thể thực hiện các phép toán thống kê trên chuỗi ký tự.

Bạn sẽ dùng bộ dữ liệu hồ sơ người dùng, ghi nhận sở thích và lựa chọn của khách hàng tại một nhà hàng. Bộ dữ liệu này chỉ gồm các thuộc tính phân loại. Trong bài tập này, bạn sẽ chuyển cột phân loại 'ambience' thành dạng số bằng OrdinalEncoder từ sklearn. DataFrame đã được nạp sẵn dưới tên users. Hàm OrdinalEncoder() cũng đã được nạp.

head() và tail() của DataFrame users đã được in sẵn cho bạn.

Hướng dẫn

100 XP
  • Tạo đối tượng ordinal encoder và gán vào ambience_ord_enc.
  • Chọn các giá trị không thiếu của cột 'ambience' trong users.
  • Đổi hình dạng ambience_not_null về kích thước (-1, 1).
  • Thay thế các giá trị không thiếu của ambience bằng các giá trị đã được mã hóa.