1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Mô hình BoW cho tagline phim

Trong bài tập này, bạn được cung cấp một corpus gồm hơn 7000 tagline của phim. Nhiệm vụ của bạn là tạo biểu diễn bag-of-words bow_matrix cho các tagline này. Ở bài này, chúng ta sẽ bỏ qua bước tiền xử lý văn bản và tạo trực tiếp bow_matrix.

Chúng ta cũng sẽ kiểm tra kích thước (shape) của bow_matrix thu được. Năm tagline đầu tiên trong corpus đã được in ra console để bạn quan sát.

Hướng dẫn

100 XP
  • Import lớp CountVectorizer từ sklearn.
  • Khởi tạo một đối tượng CountVectorizer. Đặt tên là vectorizer.
  • Dùng fit_transform() để tạo bow_matrix cho corpus.