1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Tf-idf là gì?

Bạn muốn tính trọng số tf-idf cho từ "computer", xuất hiện 5 lần trong một tài liệu có 100 từ. Với một corpus gồm 200 tài liệu, trong đó có 20 tài liệu chứa từ "computer", tf-idf được tính bằng cách nhân tần suất xuất hiện của từ với nghịch đảo tần suất văn bản.

Term frequency = tỉ lệ phần trăm của từ so với tổng số token trong tài liệu Inverse document frequency = logarit của tổng số tài liệu trong một corpora chia cho số tài liệu chứa từ đó

Phương án nào dưới đây là đúng?

Hướng dẫn

50 XP

Các phương án trả lời