1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Feature Engineering cho Machine Learning bằng Python

Connected

Bài tập

One-hot encoding và biến giả (dummy variables)

Để sử dụng biến phân loại trong mô hình Machine Learning, trước hết bạn cần biểu diễn chúng dưới dạng số. Hai cách phổ biến nhất là one-hot encoding hoặc dùng biến giả (dummy variables). Trong bài này, bạn sẽ tạo cả hai kiểu mã hóa và so sánh các tập cột được tạo ra. Ta sẽ tiếp tục dùng cùng DataFrame từ bài trước, đã được nạp là so_survey_df, và tập trung vào cột Country.

Hướng dẫn 1/2

undefined XP
  • 1

    One-hot encode cột Country, thêm tiền tố "OH" cho mỗi cột.

  • 2

    Tạo các biến giả cho cột Country, thêm tiền tố "DM" cho mỗi cột.