Unähnliche Wörter visualisieren

Angenommen, du möchtest die Wörter visualisieren, die nicht gemeinsam vorkommen. Dafür kannst du ebenfalls comparison.cloud() verwenden; die Schritte sind sehr ähnlich, mit einem entscheidenden Unterschied.

Wie bei der Suche nach gemeinsamen Wörtern beginnst du damit, die Tweets in getrennte Korpora zu vereinigen und sie in einem eigenen VCorpus()-Objekt zu kombinieren. Als Nächstes wendest du eine clean_corpus()-Funktion an und organisierst das Ganze in einer TermDocumentMatrix.

Um nachzuhalten, welche Wörter zu coffee bzw. chardonnay gehören, kannst du die Spaltennamen der TDM so setzen:

colnames(all_tdm) <- c("chardonnay", "coffee")

Zum Schluss wandelst du das Objekt mit as.matrix() in eine Matrix um, damit du es in comparison.cloud() verwenden kannst. Für jedes übergebene, separate Korpus kannst du eine Farbe angeben, z. B. colors = c("red", "yellow", "green"), um die Bereiche unterscheidbar zu machen.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

all_corpus ist in deinem Workspace vorgeladen.

Erstelle all_clean, indem du die vordefinierte Funktion clean_corpus auf all_corpus anwendest.
Erstelle all_tdm, eine TermDocumentMatrix, aus all_clean.
Verwende colnames(), um jedes separate Korpus in all_tdm umzubenennen. Benenne die erste Spalte „coffee“ und die zweite Spalte „chardonnay“.
Erstelle all_m, indem du all_tdm in eine Matrix umwandelst.
Erstelle eine comparison.cloud() mit all_m, mit colors = c("orange", "blue") und max.words = 50.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Clean the corpus
___ <- ___(___)

# Create all_tdm
___ <- ___(___)

# Give the columns distinct names
___(___) <- ___

# Create all_m
___ <- ___(___)

# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)

Code bearbeiten und ausführen