1. 学习
  2. /
  3. 课程
  4. /
  5. Feature Engineering cho Machine Learning bằng Python

Connected

练习

Đếm số từ (I)

Sau khi đã ghi lại thông tin tổng quát, bạn có thể bắt đầu tạo đặc trưng dựa trên nội dung thực tế của từng văn bản. Một cách làm là tiếp cận tương tự như khi bạn xử lý biến phân loại ở các bài trước.

  • Với mỗi từ duy nhất trong tập dữ liệu, sẽ tạo ra một cột.
  • Với mỗi bản ghi, số lần từ đó xuất hiện được đếm và giá trị đếm được điền vào cột tương ứng.

Các cột "đếm" này sau đó có thể được dùng để huấn luyện các mô hình Machine Learning.

说明

100 XP
  • Import CountVectorizer từ sklearn.feature_extraction.text.
  • Khởi tạo CountVectorizer và gán vào cv.
  • Fit vectorizer với cột text_clean.
  • In ra danh sách tên đặc trưng do vectorizer tạo ra.