1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Vector tf-idf cho các bài TED Talk

Trong bài tập này, bạn được cung cấp một corpus ted chứa bản chép của 500 bài TED Talk. Nhiệm vụ của bạn là tạo các vector tf-idf cho các bài nói này.

Trong bài học sau, chúng ta sẽ dùng các vector này để gợi ý những bài nói tương tự dựa trên nội dung bản chép.

Hướng dẫn

100 XP
  • Import TfidfVectorizer từ sklearn.
  • Tạo một đối tượng TfidfVectorizer. Đặt tên là vectorizer.
  • Tạo tfidf_matrix cho ted bằng phương thức fit_transform().