Treemap cho các nhóm tài liệu

Bạn thường sẽ làm việc với các tài liệu theo nhóm, như theo tác giả, sản phẩm hoặc công ty. Bài tập này giúp bạn tìm hiểu văn bản trong khi vẫn giữ được cấu trúc nhóm trong một hình ảnh gọn nhẹ. Ví dụ, với các đánh giá khách hàng được nhóm theo sản phẩm, bạn có thể muốn khám phá nhiều khía cạnh của đánh giá cùng lúc. Đầu tiên, bạn có thể tính polarity() của các đánh giá. Một chiều khác là độ dài. Độ dài tài liệu có thể phản ánh cường độ cảm xúc. Nếu một khách hàng để lại bình luận ngắn như "great shoes!" (giày tuyệt!), có thể suy ra mức độ hào hứng thực tế thấp hơn so với một bài đánh giá dài mang tính tích cực. Bạn cũng có thể muốn nhóm đánh giá theo loại sản phẩm như giày nữ, nam và trẻ em. Treemap cho phép bạn xem đồng thời tất cả các khía cạnh này.

Trong phân tích văn bản, trong một treemap, mỗi ô riêng lẻ đại diện cho một tài liệu như một tweet. Các tài liệu được nhóm lại theo một cách nào đó, ví dụ theo tác giả. Kích thước mỗi ô được xác định bởi một giá trị số như số từ hoặc số ký tự. Màu sắc của từng ô được xác định bởi một điểm số cảm xúc.

Sau khi bạn sắp xếp tibble, bạn sẽ dùng thư viện treemap với hàm treemap() để tạo hình. Ví dụ mã dưới đây khai báo dữ liệu, các biến nhóm, kích thước, màu sắc và các thuộc tính thẩm mỹ khác.

treemap(
  data_frame,
  index = c("group", "individual_document"),
  vSize = "doc_length",
  vColor = "avg_score",
  type = "value",
  title = "Sentiment Scores by Doc",
  palette = c("red", "white", "green")
)

Đối tượng all_books đã được nạp sẵn chứa một corpus đã tidy kết hợp gồm 4 sách của Shakespeare, 3 của Melville và 4 của Twain. Dựa trên treemap, bạn sẽ có thể nhận ra ai viết sách dài hơn, và độ phân cực (polarity) của từng tác giả nói chung cũng như của từng cuốn sách.

Tính độ dài của mỗi cuốn sách trong một đối tượng mới tên book_length bằng cách dùng count() với cột book.

övning

Treemap cho các nhóm tài liệu

Instruktioner 1/3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}övning

Instruktioner 1/3

övning