1. 学ぶ
  2. /
  3. コース
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

演習

Phân tích số chiều và tiền xử lý

Trong bài tập này, bạn được cung cấp một lem_corpus chứa các phiên bản đã tiền xử lý của tagline phim từ bài trước. Nói cách khác, các tagline đã được chuyển về chữ thường, lemmatize và loại bỏ stopword.

Nhiệm vụ của bạn là tạo biểu diễn bag-of-words bow_lem_matrix cho các tagline đã lemmatize này và so sánh kích thước (shape) của nó với bow_matrix thu được ở bài trước. Năm tagline đã lemmatize đầu tiên trong lem_corpus đã được in ra console để bạn quan sát.

指示

100 XP
  • Import lớp CountVectorizer từ sklearn.
  • Khởi tạo một đối tượng CountVectorizer. Đặt tên là vectorizer.
  • Dùng fit_transform() để tạo bow_lem_matrix cho lem_corpus.