Unähnliche Wörter visualisieren
Angenommen, du möchtest die Wörter visualisieren, die nicht gemeinsam vorkommen. Dafür kannst du ebenfalls comparison.cloud() verwenden; die Schritte sind sehr ähnlich, mit einem entscheidenden Unterschied.
Wie bei der Suche nach gemeinsamen Wörtern beginnst du damit, die Tweets in getrennte Korpora zu vereinigen und sie in einem eigenen VCorpus()-Objekt zu kombinieren. Als Nächstes wendest du eine clean_corpus()-Funktion an und organisierst das Ganze in einer TermDocumentMatrix.
Um nachzuhalten, welche Wörter zu coffee bzw. chardonnay gehören, kannst du die Spaltennamen der TDM so setzen:
colnames(all_tdm) <- c("chardonnay", "coffee")
Zum Schluss wandelst du das Objekt mit as.matrix() in eine Matrix um, damit du es in comparison.cloud() verwenden kannst. Für jedes übergebene, separate Korpus kannst du eine Farbe angeben, z. B. colors = c("red", "yellow", "green"), um die Bereiche unterscheidbar zu machen.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
all_corpus ist in deinem Workspace vorgeladen.
- Erstelle
all_clean, indem du die vordefinierte Funktionclean_corpusaufall_corpusanwendest. - Erstelle
all_tdm, eineTermDocumentMatrix, ausall_clean. - Verwende
colnames(), um jedes separate Korpus inall_tdmumzubenennen. Benenne die erste Spalte „coffee“ und die zweite Spalte „chardonnay“. - Erstelle
all_m, indem duall_tdmin eine Matrix umwandelst. - Erstelle eine
comparison.cloud()mitall_m, mitcolors = c("orange", "blue")undmax.words = 50.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Clean the corpus
___ <- ___(___)
# Create all_tdm
___ <- ___(___)
# Give the columns distinct names
___(___) <- ___
# Create all_m
___ <- ___(___)
# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)