Stoppwörter und Wordclouds
Jetzt, wo du im Text-Mining-Modus bist und gemütlich ein Glas Chardonnay trinkst, gehen wir einen Schritt tiefer. In der letzten Wordcloud hat „chardonnay“ das Bild dominiert. Es war so präsent, dass du keine anderen spannenden Erkenntnisse herauslesen konntest.
Ändern wir die Stoppwörter so, dass „chardonnay“ enthalten ist, um zu sehen, welche anderen Wörter häufig sind, aber zuvor untergegangen sind.
Dein Workspace enthält eine bereinigte Version der Chardonnay-Tweets, aber jetzt entfernen wir einige wenig aussagekräftige Begriffe. Diese Übung verwendet content(), um dir einen bestimmten Tweet zum Vergleich zu zeigen. Denk daran, doppelte eckige Klammern zu verwenden, um die Korpusliste zu indexieren.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Wende
content()auf das 24. Dokument inchardonnay_corpan. - Hänge
"chardonnay"an die englischen Stoppwörter an und weise das Ergebnisstopszu. - Untersuche die letzten sechs Wörter in
stops. - Erstelle
cleaned_chardonnay_corpmittm_map(), indem duchardonnay_corp, die FunktionremoveWords()und schließlich die Stoppwörterstopsübergibst. - Untersuche nun erneut den
contentdes Tweets24, um die Ergebnisse zu vergleichen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Review a "cleaned" tweet
___(___)
# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')
# Review last 6 stopwords
tail(stops)
# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)
# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])