Đám mây so sánh (Comparison Cloud)

Bài tập này sẽ tạo một dạng trực quan phổ biến để bạn hiểu về tần suất thuật ngữ. Cụ thể, bạn sẽ xem các thuật ngữ xuất hiện nhiều nhất trong hai tài liệu gộp của nhóm tích cực và tiêu cực. Nhớ lại TermDocumentMatrix all_tdm bạn đã tạo trước đó. Thay vì 1000 đánh giá thuê nhà riêng lẻ, ma trận này có 2 tài liệu chứa toàn bộ đánh giá, được tách theo điểm polarity().

Thông thường, việc chuyển TDM thành ma trận sẽ dễ làm việc hơn. Từ đó, bạn chỉ cần đổi tên các cột. Lưu ý rằng hàm colnames() được gọi ở vế trái của toán tử gán như minh họa dưới đây.

colnames(OBJECT) <- c("COLUMN_NAME1", "COLUMN_NAME2")

Sau khi xong, bạn sẽ sắp xếp lại ma trận để xem các từ tích cực và tiêu cực nhất. Xem lại các thuật ngữ này để bạn có thể trả lời các bài tập kết luận!

Cuối cùng, bạn sẽ trực quan hóa các thuật ngữ bằng comparison.cloud().

Chuyển all_tdm đã được nạp sẵn thành ma trận tên all_tdm_m bằng as.matrix().
Dùng colnames() trên all_tdm_m để đặt tên c("positive", "negative").
Áp dụng order() cho all_tdm_m[,1] và đặt decreasing = TRUE.
Xem 10 thuật ngữ đứng đầu của TDM đã sắp xếp lại bằng cách dùng pipe (%>%) rồi gọi head() với n = 10.
Lặp lại hai bước trước với các bình luận tiêu cực. Lần này bạn sẽ order() theo cột thứ hai, all_tdm_m[,2] và đặt decreasing = TRUE.
Xem 10 thuật ngữ tiêu cực nhất bằng cách lập chỉ mục all_tdm_m theo order_by_neg. Dùng pipe tới head() với n = 10.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn 1/2

Bài tập