1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Vector BoW cho bài đánh giá phim

Trong bài này, bạn được cung cấp hai pandas Series là X_train và X_test, chứa các bài đánh giá phim. Chúng lần lượt đại diện cho dữ liệu đánh giá dùng để huấn luyện và để kiểm tra. Nhiệm vụ của bạn là tiền xử lý các bài đánh giá và tạo các vector BoW cho hai tập này bằng CountVectorizer.

Khi đã tạo được các ma trận vector BoW X_train_bow và X_test_bow, chúng ta sẽ ở vị thế rất tốt để áp dụng một mô hình Machine Learning lên đó và thực hiện phân tích cảm xúc.

Hướng dẫn

100 XP
  • Import CountVectorizer từ thư viện sklearn.
  • Khởi tạo một đối tượng CountVectorizer tên là vectorizer. Đảm bảo tất cả từ được chuyển thành chữ thường và loại bỏ stopword english.
  • Dùng X_train để fit vectorizer, sau đó biến đổi X_train để tạo tập vector BoW X_train_bow.
  • Biến đổi X_test bằng vectorizer để tạo tập vector BoW X_test_bow.