Stromové mapy pro skupiny dokumentů

Při práci s textem se často setkáš s dokumenty rozdělenými do skupin – například podle autora, produktu nebo společnosti. Toto cvičení ti ukáže, jak prozkoumat textová data a zároveň zachovat přehled o skupinách v kompaktní vizualizaci. Vezměme si třeba zákaznické recenze seskupené podle produktu – možná budeš chtít zkoumat několik dimenzí najednou. Nejprve můžeš vypočítat polarity() recenzí. Další dimenzí může být délka textu, která naznačuje emocionální intenzitu. Krátké „skvělé boty!" může signalizovat menší nadšení než delší kladná recenze. Recenze lze také rozdělit podle kategorie produktu – dámské, pánské nebo dětské boty. Stromová mapa (treemap) ti umožní zkoumat všechny tyto dimenze najednou.

V analýze textu představuje každý box stromové mapy jeden dokument, například tweet. Dokumenty jsou nějak seskupeny, třeba podle autora. Velikost každého boxu odpovídá nějaké číselné hodnotě, například počtu slov nebo písmen. Barvy pak určuje skóre sentimentu.

Až si tibble připravíš, použij knihovnu treemap s funkcí treemap() pro vytvoření vizualizace. Ukázka kódu níže definuje data, seskupovací proměnné, velikost, barvu a další estetické parametry.

treemap(
  data_frame,
  index = c("group", "individual_document"),
  vSize = "doc_length",
  vColor = "avg_score",
  type = "value",
  title = "Sentiment Scores by Doc",
  palette = c("red", "white", "green")
)

Předpřipravený objekt all_books obsahuje kombinovaný korpus v tidy formátu – 4 knihy Shakespeara, 3 Melvilla a 4 Twaina. Ze stromové mapy by mělo být patrné, kdo píše delší knihy a jaká je polarita jednotlivých autorů i konkrétních knih.

Vypočítej délku každé knihy do nového objektu book_length pomocí count() se sloupcem book.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny 1/3

cvičení