Alles über Stoppwörter
Oft gibt es Wörter, die häufig vorkommen, aber wenig Information liefern. Diese nennt man Stoppwörter, und du möchtest sie möglicherweise aus deiner Analyse entfernen. Zu den häufigen englischen Stoppwörtern zählen zum Beispiel „I“, „she'll“, „the“ usw. Im Paket tm gibt es 174 gängige englische Stoppwörter (du wirst sie in dieser Übung ausgeben!).
Bei einer Analyse musst du diese Liste in der Regel erweitern. In unserem Coffee-Tweet-Beispiel enthalten alle Tweets „coffee“, daher ist es wichtig, dieses Wort zusätzlich zu den üblichen Stoppwörtern herauszufiltern. Wenn „coffee“ drinbleibt, bringt es keine zusätzlichen Erkenntnisse und wird in einer Häufigkeitsanalyse überbetont.
Mit der Funktion c() kannst du neue Wörter zur Stoppwortliste hinzufügen. Zum Beispiel fügt Folgendes „word1“ und „word2“ zur Standardliste der englischen Stoppwörter hinzu:
all_stops <- c("word1", "word2", stopwords("en"))
Sobald du eine sinnvolle Liste an Stoppwörtern hast, verwendest du die Funktion removeWords() auf deinem Text. removeWords() nimmt zwei Argumente: das text-Objekt, auf das sie angewendet wird, und die Liste der zu entfernenden Wörter.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Sieh dir die Standard-Stoppwörter an, indem du
stopwords("en")aufrufst. - Entferne die „en“-Stoppwörter aus
text. - Füge „coffee“ und „bean“ zu den Standard-Stoppwörtern hinzu und weise das Ergebnis
new_stopszu. - Entferne die angepassten Stoppwörter,
new_stops, austext.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
## text is preloaded into your workspace
# List standard English stop words
___
# Print text without standard stop words
removeWords(___, ___("___"))
# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)
# Remove stop words from text
___