Alles over stopwoorden
Vaak komen er woorden veel voor die weinig informatie geven. Dit zijn stopwoorden, en die wil je misschien uit je analyse verwijderen. Enkele veelvoorkomende Engelse stopwoorden zijn "I", "she'll", "the", enzovoort. In het tm-pakket zijn er 174 veelvoorkomende Engelse stopwoorden (je drukt ze in deze oefening af!).
Tijdens een analyse zul je deze lijst waarschijnlijk moeten uitbreiden. In ons koffietweet-voorbeeld bevatten alle tweets "coffee", dus is het belangrijk om dat woord, naast de standaardstopwoorden, ook te verwijderen. "coffee" laten staan voegt geen inzicht toe en zorgt ervoor dat het in een frequentieanalyse te veel nadruk krijgt.
Met de functie c() kun je nieuwe woorden toevoegen aan de lijst met stopwoorden. Bijvoorbeeld, het volgende voegt "word1" en "word2" toe aan de standaardlijst met Engelse stopwoorden:
all_stops <- c("word1", "word2", stopwords("en"))
Zodra je een zinvolle lijst met stopwoorden hebt, gebruik je de functie removeWords() op je tekst. removeWords() neemt twee argumenten: het text-object waarop het wordt toegepast en de lijst met te verwijderen woorden.
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Bekijk de standaardstopwoorden door
stopwords("en")aan te roepen. - Verwijder "en"-stopwoorden uit
text. - Voeg "coffee" en "bean" toe aan de standaardstopwoorden en wijs dit toe aan
new_stops. - Verwijder de aangepaste stopwoorden,
new_stops, uittext.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
## text is preloaded into your workspace
# List standard English stop words
___
# Print text without standard stop words
removeWords(___, ___("___"))
# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)
# Remove stop words from text
___