1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Connected

Bài tập

Luyện tập TFIDF

Trước đó, bạn đã xem biểu diễn bag-of-words của các bài viết về dầu thô. Việc tính giá trị TFIDF dựa trên biểu diễn bag-of-words này, nhưng đồng thời xét đến tần suất một từ xuất hiện trong một bài viết và tần suất từ đó xuất hiện trong toàn bộ tập bài viết.

Để đánh giá mức độ “có ý nghĩa” của các từ khi so sánh giữa các bài viết, hãy tính trọng số TFIDF cho các từ trong crude, một tập gồm 20 bài viết về dầu thô.

Hướng dẫn

100 XP
  • Tính các giá trị TFIDF cho crude theo article_id và theo word. Lưu tibble kết quả là crude_weights.
  • Sắp xếp crude_weights bằng hàm arrange() theo tf_idf giảm dần.
  • Lọc crude_weights để lấy các giá trị tf_idf nhỏ nhất nhưng khác 0. Tiếp tục dùng hàm arrange.