Wie beeinflussen Bigrams Wordclouds?
Jetzt, da du eine Bigram-DTM erstellt hast, kannst du sie untersuchen und eine Wordcloud neu erstellen. Die neue Tokenisierungsmethode beeinflusst nicht nur die Matrizen, sondern auch alle darauf basierenden Visualisierungen oder Modelle.
Erinnerst du dich, wie „Marvin“ und „Gaye“ in der Chardonnay-Wordcloud getrennte Terme waren? Mit Bigrams erfasst die Tokenisierung alle Zwei-Wort-Kombinationen. Sieh dir in dieser Übung an, was mit der Wordcloud passiert.
In dieser Übung wird str_subset aus stringr verwendet. Denk daran: Andere DataCamp-Kurse behandeln reguläre Ausdrücke ausführlicher. Zur Erinnerung: Der reguläre Ausdruck ^ matcht die Anfangs-Position innerhalb der Bigrams der Übung.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
Die Chardonnay-Tweets wurden bereinigt und in einer DTM namens bigram_dtm organisiert.
- Erstelle
bigram_dtm_m, indem dubigram_dtmin eine Matrix umwandelst. - Erzeuge ein Objekt
freq, das aus den Worthäufigkeiten besteht, indem ducolSums()aufbigram_dtm_manwendest. - Extrahiere den Zeichenkettenvektor der Wortkombinationen mit
names(freq)und weise das Ergebnisbi_wordszu. - Übergib
bi_wordsanstr_subset()mit dem passenden Muster"^marvin", um alle Bigrams zu prüfen, die mit „marvin“ beginnen. - Zeichne eine einfache
wordcloud()und übergibbi_words,frequndmax.words = 15an die Funktion.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create bigram_dtm_m
___ <- ___(___)
# Create freq
___ <- ___(___)
# Create bi_words
___ <- ___(___)
# Examine part of bi_words
___(___, ___)
# Plot a word cloud
___(___, ___, ___)