1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Ma trận độ tương đồng cosine của một corpus

Trong bài tập này, bạn được cung cấp một corpus, là một danh sách gồm năm câu. corpus đã được in ra ở bảng điều khiển. Bạn cần tính ma trận độ tương đồng cosine, trong đó chứa điểm tương đồng cosine theo cặp cho mọi cặp câu (đã được vector hóa bằng tf-idf).

Hãy nhớ: giá trị tại hàng i và cột j của ma trận tương đồng biểu thị điểm tương đồng giữa vector thứ i và vector thứ j.

Hướng dẫn

100 XP
  • Khởi tạo một thể hiện của TfidfVectorizer. Đặt tên là tfidf_vectorizer.
  • Dùng fit_transform() để tạo các vector tf-idf cho corpus. Đặt tên là tfidf_matrix.
  • Dùng cosine_similarity() và truyền tfidf_matrix để tính ma trận độ tương đồng cosine cosine_sim.