Alles über Stoppwörter

Oft gibt es Wörter, die häufig vorkommen, aber wenig Information liefern. Diese nennt man Stoppwörter, und du möchtest sie möglicherweise aus deiner Analyse entfernen. Zu den häufigen englischen Stoppwörtern zählen zum Beispiel „I“, „she'll“, „the“ usw. Im Paket tm gibt es 174 gängige englische Stoppwörter (du wirst sie in dieser Übung ausgeben!).

Bei einer Analyse musst du diese Liste in der Regel erweitern. In unserem Coffee-Tweet-Beispiel enthalten alle Tweets „coffee“, daher ist es wichtig, dieses Wort zusätzlich zu den üblichen Stoppwörtern herauszufiltern. Wenn „coffee“ drinbleibt, bringt es keine zusätzlichen Erkenntnisse und wird in einer Häufigkeitsanalyse überbetont.

Mit der Funktion c() kannst du neue Wörter zur Stoppwortliste hinzufügen. Zum Beispiel fügt Folgendes „word1“ und „word2“ zur Standardliste der englischen Stoppwörter hinzu:

all_stops <- c("word1", "word2", stopwords("en"))

Sobald du eine sinnvolle Liste an Stoppwörtern hast, verwendest du die Funktion removeWords() auf deinem Text. removeWords() nimmt zwei Argumente: das text-Objekt, auf das sie angewendet wird, und die Liste der zu entfernenden Wörter.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Sieh dir die Standard-Stoppwörter an, indem du stopwords("en") aufrufst.
Entferne die „en“-Stoppwörter aus text.
Füge „coffee“ und „bean“ zu den Standard-Stoppwörtern hinzu und weise das Ergebnis new_stops zu.
Entferne die angepassten Stoppwörter, new_stops, aus text.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

## text is preloaded into your workspace

# List standard English stop words
___

# Print text without standard stop words
removeWords(___, ___("___"))

# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)

# Remove stop words from text
___

Code bearbeiten und ausführen