1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Dự đoán CTR với Machine Learning trong Python

Connected

Bài tập

Chuyển đổi biến phân loại

Vì sklearn yêu cầu các đặc trưng dạng số làm đầu vào cho mô hình, nên việc mã hóa các biến phân loại thành biến số là quan trọng. Kỹ thuật phổ biến nhất là "one-hot encoding" — đơn giản nhưng tốn nhiều bộ nhớ. Vì vậy, bạn sẽ dùng kỹ thuật hashing, ánh xạ đầu vào phân loại thành các giá trị số cho từng cột phân loại.

Mô-đun pandas đã được nạp dưới tên pd trong không gian làm việc của bạn và DataFrame mẫu đã được nạp là df.

Hướng dẫn

100 XP
  • Chọn các cột phân loại bằng cách lọc theo kiểu dữ liệu.
  • Áp dụng một hàm băm lên từng cột phân loại.