Mapy drzewiaste dla grup dokumentów

Często pracujesz z dokumentami podzielonymi na grupy – według autora, produktu czy firmy. To ćwiczenie pozwoli ci analizować tekst z zachowaniem podziału na grupy w formie zwartej wizualizacji. Na przykład, mając recenzje klientów pogrupowane według produktu, możesz jednocześnie badać wiele wymiarów tych recenzji. Najpierw możesz obliczyć polarity() recenzji. Innym wymiarem może być długość tekstu. Długość dokumentu może świadczyć o intensywności emocjonalnej. Krótkie „świetne buty!" sugeruje mniejszy entuzjazm niż obszerna pozytywna recenzja. Możesz też pogrupować recenzje według kategorii produktu, np. buty damskie, męskie i dziecięce. Mapa drzewiasta pozwala zbadać wszystkie te wymiary naraz.

W analizie tekstu każdy prostokąt na mapie drzewiastej reprezentuje pojedynczy dokument, na przykład tweet. Dokumenty są grupowane według jakiegoś kryterium, np. autora. Rozmiar prostokąta zależy od wartości liczbowej, takiej jak liczba słów lub liter. Kolory poszczególnych prostokątów odpowiadają wynikom analizy sentymentu.

Po uporządkowaniu tibble, używasz biblioteki treemap zawierającej funkcję treemap() do stworzenia wizualizacji. Poniższy przykład pokazuje, jak zadeklarować dane, zmienne grupujące, rozmiar, kolor i inne parametry estetyczne.

treemap(
  data_frame,
  index = c("group", "individual_document"),
  vSize = "doc_length",
  vColor = "avg_score",
  type = "value",
  title = "Sentiment Scores by Doc",
  palette = c("red", "white", "green")
)

Wstępnie załadowany obiekt all_books zawiera połączony korpus w formacie tidy z 4 książkami Szekspira, 3 Melville'a i 4 Twaina. Na podstawie mapy drzewiastej powinieneś być w stanie określić, kto pisze dłuższe książki oraz jaki jest ogólny sentyment dla każdego autora i poszczególnych tytułów.

Oblicz długość każdej książki w nowym obiekcie o nazwie book_length, używając count() z kolumną book.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/3

ćwiczenie