Wie beeinflussen Bigrams Wordclouds?

Jetzt, da du eine Bigram-DTM erstellt hast, kannst du sie untersuchen und eine Wordcloud neu erstellen. Die neue Tokenisierungsmethode beeinflusst nicht nur die Matrizen, sondern auch alle darauf basierenden Visualisierungen oder Modelle.

Erinnerst du dich, wie „Marvin“ und „Gaye“ in der Chardonnay-Wordcloud getrennte Terme waren? Mit Bigrams erfasst die Tokenisierung alle Zwei-Wort-Kombinationen. Sieh dir in dieser Übung an, was mit der Wordcloud passiert.

In dieser Übung wird str_subset aus stringr verwendet. Denk daran: Andere DataCamp-Kurse behandeln reguläre Ausdrücke ausführlicher. Zur Erinnerung: Der reguläre Ausdruck ^ matcht die Anfangs-Position innerhalb der Bigrams der Übung.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Die Chardonnay-Tweets wurden bereinigt und in einer DTM namens bigram_dtm organisiert.

Erstelle bigram_dtm_m, indem du bigram_dtm in eine Matrix umwandelst.
Erzeuge ein Objekt freq, das aus den Worthäufigkeiten besteht, indem du colSums() auf bigram_dtm_m anwendest.
Extrahiere den Zeichenkettenvektor der Wortkombinationen mit names(freq) und weise das Ergebnis bi_words zu.
Übergib bi_words an str_subset() mit dem passenden Muster "^marvin", um alle Bigrams zu prüfen, die mit „marvin“ beginnen.
Zeichne eine einfache wordcloud() und übergib bi_words, freq und max.words = 15 an die Funktion.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create bigram_dtm_m
___ <- ___(___)

# Create freq
___ <- ___(___)

# Create bi_words
___ <- ___(___)

# Examine part of bi_words
___(___, ___)

# Plot a word cloud
___(___, ___, ___)

Code bearbeiten und ausführen