1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Feature Engineering cho Machine Learning bằng Python

Connected

Bài tập

Giới hạn số lượng đặc trưng

Như bạn đã thấy, dùng CountVectorizer với thiết lập mặc định sẽ tạo một đặc trưng cho từng từ trong toàn bộ corpus. Điều này có thể tạo ra quá nhiều đặc trưng, thường bao gồm cả những đặc trưng gần như không mang lại giá trị phân tích.

Vì vậy, CountVectorizer cung cấp các tham số để bạn giảm số lượng đặc trưng:

  • min_df: Chỉ dùng những từ xuất hiện trong hơn tỷ lệ phần trăm tài liệu này. Có thể dùng để loại bỏ các từ ngoại lai khó khái quát giữa các văn bản.
  • max_df: Chỉ dùng những từ xuất hiện trong ít hơn tỷ lệ phần trăm tài liệu này. Hữu ích để loại bỏ các từ quá phổ biến xuất hiện ở mọi corpus nhưng không thêm giá trị như "and" hoặc "the".

Hướng dẫn

100 XP
  • Giới hạn số lượng đặc trưng trong CountVectorizer bằng cách đặt tỷ lệ tối thiểu số tài liệu mà một từ có thể xuất hiện là 20% và tối đa là 80%.
  • Fit và áp dụng vectorizer lên cột text_clean trong một bước.
  • Chuyển mảng (thưa) đã biến đổi này thành một mảng numpy với các số đếm.
  • In kích thước (dimensions) của mảng đã được rút gọn mới.