1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Hệ gợi ý TED Talk

Trong bài tập này, bạn sẽ xây dựng một hệ thống gợi ý TED Talk dựa trên bản ghi (transcript) của các bài nói. Bạn đã được cung cấp hàm get_recommendations() nhận vào tiêu đề một bài nói, một ma trận độ tương đồng và một series indices làm đối số, rồi xuất ra danh sách các bài nói tương tự nhất. indices đã được cung cấp sẵn cho bạn.

Bạn cũng được cung cấp một series transcripts chứa bản ghi của khoảng 500 TED Talk. Nhiệm vụ của bạn là tạo ma trận độ tương đồng cosine cho các vector tf-idf của các bản ghi này.

Sau đó, chúng ta sẽ tạo gợi ý cho bài nói có tiêu đề '5 ways to kill your dreams' của doanh nhân Brazil Bel Pesce.

Hướng dẫn

100 XP
  • Khởi tạo một TfidfVectorizer với tiếng Anh stopwords. Đặt tên là tfidf.
  • Tạo tfidf_matrix bằng cách fit và transform transcripts.
  • Sinh ma trận độ tương đồng cosine cosine_sim từ tfidf_matrix.
  • Dùng get_recommendations() để tạo gợi ý cho '5 ways to kill your dreams'.