1. Learn
  2. /
  3. Courses
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Exercise

Sơ đồ cây (dendrogram) amzn_cons

Có vẻ như các đánh giá cho thấy dấu hiệu mạnh về việc làm việc quá giờ và cân bằng công việc - cuộc sống kém. Như một kỹ thuật phân cụm đơn giản, bạn quyết định thực hiện phân cụm phân cấp và tạo một sơ đồ cây (dendrogram) để xem các cụm từ này liên kết với nhau như thế nào.

Instructions

100 XP
  • Tạo amzn_c_tdm là một TermDocumentMatrix sử dụng amzn_cons_corp với control = list(tokenize = tokenizer).
  • In amzn_c_tdm ra console.
  • Tạo amzn_c_tdm2 bằng cách áp dụng hàm removeSparseTerms() lên amzn_c_tdm với đối số sparse bằng .993.
  • Tạo hc, một đối tượng phân cụm phân cấp bằng cách lồng ma trận khoảng cách dist(amzn_c_tdm2) vào bên trong hàm hclust(). Hãy đảm bảo truyền thêm method = "complete" cho hàm hclust().
  • Vẽ hc để xem các bigram đã được phân cụm và quan sát cách các khái niệm trong phần cons của Amazon có thể giúp bạn đi đến kết luận.