Polarisierte Tag-Cloud
Commonality-Clouds zeigen Wörter, die in mehreren Dokumenten vorkommen. Was sie dir jedoch nicht zeigen können, ist, in welchem der Dokumente diese Wörter häufiger vorkommen. Dafür brauchst du ein Pyramidendiagramm; solche Diagramme kannst du mit pyramid.plot() aus dem Paket plotrix erzeugen.
Zuerst musst du die Daten etwas aufbereiten. Am einfachsten geht das, indem du sie in einen Data Frame umwandelst und dplyr verwendest. Ausgehend von einer Matrix von Worthäufigkeiten, wie sie mit as.matrix(tdm) erzeugt wird, brauchst du am Ende einen Data Frame mit drei Spalten:
- Die Wörter, die in jedem Dokument enthalten sind.
- Die Zählungen dieser Wörter aus Dokument 1.
- Die Zählungen dieser Wörter aus Dokument 2.
Dann rufst du pyramid.plot() so auf:
pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)
Es gibt zusätzliche Argumente, um die optische Gestaltung der Grafik zu verbessern.
Jetzt untersuchst du Wörter, die in Chardonnay-Tweets häufig, in Coffee-Tweets aber selten sind. all_dtm_m wurde für dich erstellt.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
top25_df <- all_tdm_m %>%
# Convert to data frame
as_tibble(rownames = "___") %>%
# Keep rows where word appears everywhere
filter(if_all(everything(), ___) %>%
# Get difference in counts
mutate(difference = ___) %>%
# Keep rows with biggest difference
slice_max(___, n = ___) %>%
# Arrange by descending difference
arrange(___(___))