1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Feature Engineering cho Machine Learning bằng Python

Connected

Bài tập

Xử lý các hạng mục ít gặp

Một số đặc trưng có thể có rất nhiều hạng mục nhưng phân bố tần suất xuất hiện lại rất lệch. Ví dụ như các ngôn ngữ ưa thích để lập trình trong lĩnh vực Data Science: phổ biến có Python, R và Julia, nhưng cũng có người chọn các ngôn ngữ riêng như FORTRAN, C, v.v. Trong những trường hợp này, bạn có thể không muốn tạo một đặc trưng cho từng giá trị, mà chỉ cho các giá trị xuất hiện phổ biến hơn.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Trích xuất cột Country của so_survey_df dưới dạng series và gán cho countries.
  • Tìm số lượng của mỗi hạng mục trong series countries vừa tạo.