1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Phân tích số chiều và tiền xử lý

Trong bài tập này, bạn được cung cấp một lem_corpus chứa các phiên bản đã tiền xử lý của tagline phim từ bài trước. Nói cách khác, các tagline đã được chuyển về chữ thường, lemmatize và loại bỏ stopword.

Nhiệm vụ của bạn là tạo biểu diễn bag-of-words bow_lem_matrix cho các tagline đã lemmatize này và so sánh kích thước (shape) của nó với bow_matrix thu được ở bài trước. Năm tagline đã lemmatize đầu tiên trong lem_corpus đã được in ra console để bạn quan sát.

Hướng dẫn

100 XP
  • Import lớp CountVectorizer từ sklearn.
  • Khởi tạo một đối tượng CountVectorizer. Đặt tên là vectorizer.
  • Dùng fit_transform() để tạo bow_lem_matrix cho lem_corpus.