1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Tf-idf với Wikipedia

Giờ đến lượt bạn xác định các thuật ngữ quan trọng mới cho corpus của mình bằng cách áp dụng tf-idf của gensim. Bạn vẫn có quyền truy cập vào cùng các đối tượng corpus và dictionary đã tạo ở bài trước: dictionary, corpus, và doc. Liệu tf-idf có tạo ra các kết quả thú vị hơn ở cấp độ tài liệu không?

TfidfModel đã được import sẵn cho bạn từ gensim.models.tfidfmodel.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Khởi tạo một TfidfModel mới tên tfidf sử dụng corpus.
  • Dùng doc để tính trọng số. Bạn có thể làm điều này bằng cách truyền [doc] vào tfidf.
  • In 5 term id đầu tiên kèm trọng số.