Alles over stopwoorden

Vaak komen er woorden veel voor die weinig informatie geven. Dit zijn stopwoorden, en die wil je misschien uit je analyse verwijderen. Enkele veelvoorkomende Engelse stopwoorden zijn "I", "she'll", "the", enzovoort. In het tm-pakket zijn er 174 veelvoorkomende Engelse stopwoorden (je drukt ze in deze oefening af!).

Tijdens een analyse zul je deze lijst waarschijnlijk moeten uitbreiden. In ons koffietweet-voorbeeld bevatten alle tweets "coffee", dus is het belangrijk om dat woord, naast de standaardstopwoorden, ook te verwijderen. "coffee" laten staan voegt geen inzicht toe en zorgt ervoor dat het in een frequentieanalyse te veel nadruk krijgt.

Met de functie c() kun je nieuwe woorden toevoegen aan de lijst met stopwoorden. Bijvoorbeeld, het volgende voegt "word1" en "word2" toe aan de standaardlijst met Engelse stopwoorden:

all_stops <- c("word1", "word2", stopwords("en"))

Zodra je een zinvolle lijst met stopwoorden hebt, gebruik je de functie removeWords() op je tekst. removeWords() neemt twee argumenten: het text-object waarop het wordt toegepast en de lijst met te verwijderen woorden.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Bekijk de standaardstopwoorden door stopwords("en") aan te roepen.
Verwijder "en"-stopwoorden uit text.
Voeg "coffee" en "bean" toe aan de standaardstopwoorden en wijs dit toe aan new_stops.
Verwijder de aangepaste stopwoorden, new_stops, uit text.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

## text is preloaded into your workspace

# List standard English stop words
___

# Print text without standard stop words
removeWords(___, ___("___"))

# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)

# Remove stop words from text
___

Code bewerken en uitvoeren