Stoppwörter und Wordclouds

Jetzt, wo du im Text-Mining-Modus bist und gemütlich ein Glas Chardonnay trinkst, gehen wir einen Schritt tiefer. In der letzten Wordcloud hat „chardonnay“ das Bild dominiert. Es war so präsent, dass du keine anderen spannenden Erkenntnisse herauslesen konntest.

Ändern wir die Stoppwörter so, dass „chardonnay“ enthalten ist, um zu sehen, welche anderen Wörter häufig sind, aber zuvor untergegangen sind.

Dein Workspace enthält eine bereinigte Version der Chardonnay-Tweets, aber jetzt entfernen wir einige wenig aussagekräftige Begriffe. Diese Übung verwendet content(), um dir einen bestimmten Tweet zum Vergleich zu zeigen. Denk daran, doppelte eckige Klammern zu verwenden, um die Korpusliste zu indexieren.

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

Wende content() auf das 24. Dokument in chardonnay_corp an.
Hänge "chardonnay" an die englischen Stoppwörter an und weise das Ergebnis stops zu.
Untersuche die letzten sechs Wörter in stops.
Erstelle cleaned_chardonnay_corp mit tm_map(), indem du chardonnay_corp, die Funktion removeWords() und schließlich die Stoppwörter stops übergibst.
Untersuche nun erneut den content des Tweets 24, um die Ergebnisse zu vergleichen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Review a "cleaned" tweet
___(___)

# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')

# Review last 6 stopwords 
tail(stops)

# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)

# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])

Code bearbeiten und ausführen