Polarisierte Tag-Cloud

Commonality-Clouds zeigen Wörter, die in mehreren Dokumenten vorkommen. Was sie dir jedoch nicht zeigen können, ist, in welchem der Dokumente diese Wörter häufiger vorkommen. Dafür brauchst du ein Pyramidendiagramm; solche Diagramme kannst du mit pyramid.plot() aus dem Paket plotrix erzeugen.

Zuerst musst du die Daten etwas aufbereiten. Am einfachsten geht das, indem du sie in einen Data Frame umwandelst und dplyr verwendest. Ausgehend von einer Matrix von Worthäufigkeiten, wie sie mit as.matrix(tdm) erzeugt wird, brauchst du am Ende einen Data Frame mit drei Spalten:

Die Wörter, die in jedem Dokument enthalten sind.
Die Zählungen dieser Wörter aus Dokument 1.
Die Zählungen dieser Wörter aus Dokument 2.

Dann rufst du pyramid.plot() so auf:

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Es gibt zusätzliche Argumente, um die optische Gestaltung der Grafik zu verbessern.

Jetzt untersuchst du Wörter, die in Chardonnay-Tweets häufig, in Coffee-Tweets aber selten sind. all_dtm_m wurde für dich erstellt.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

top25_df <- all_tdm_m %>%
  # Convert to data frame
  as_tibble(rownames = "___") %>% 
  # Keep rows where word appears everywhere
  filter(if_all(everything(), ___) %>% 
  # Get difference in counts
  mutate(difference = ___) %>% 
  # Keep rows with biggest difference
  slice_max(___,  n = ___) %>% 
  # Arrange by descending difference
  arrange(___(___))

Code bearbeiten und ausführen