1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Feature Engineering cho Machine Learning bằng Python

Connected

Bài tập

Phân nhóm (binning) giá trị

Với nhiều giá trị liên tục, bạn thường không quá quan tâm đến con số chính xác của một cột số, mà chú ý nhiều hơn đến “nhóm” (bucket) mà nó rơi vào. Điều này hữu ích khi trực quan hóa dữ liệu hoặc đơn giản hóa mô hình Machine Learning của bạn. Cách làm này chủ yếu áp dụng cho biến liên tục khi độ chính xác tuyệt đối không phải ưu tiên lớn, ví dụ: tuổi, chiều cao, tiền lương.

Các bin được tạo bằng pd.cut(df['column_name'], bins) trong đó bins có thể là một số nguyên chỉ số lượng bin cách đều nhau, hoặc một danh sách các ranh giới bin.

Hướng dẫn 1/2

undefined XP
  • 1

    Phân nhóm giá trị của cột ConvertedSalary trong so_survey_df thành 5 bin bằng nhau, lưu vào cột mới tên equal_binned.

  • 2

    Phân nhóm cột ConvertedSalary theo các ranh giới trong danh sách bins và gán nhãn cho các bin bằng labels.