Stopwoorden en extra spaties verwijderen
Een tekstcorpus bevat meestal veel algemene woorden zoals "a", "an", "the", "of" en "but". In natural language processing noemen we dit stopwoorden.
Stopwoorden verwijder je doorgaans tijdens de tekstverwerking, zodat je je kunt richten op belangrijkere woorden in het corpus om inzichten te krijgen.
Daarnaast moeten de extra spaties die ontstaan bij het verwijderen van speciale tekens, interpunctie, cijfers en stopwoorden uit het corpus worden gehaald.
Het corpus dat je in de vorige oefening hebt gemaakt is al ingeladen als twt_corpus_lwr.
De bibliotheek tm is voor deze oefening vooraf geladen.
Deze oefening maakt deel uit van de cursus
Socialemediagegevens analyseren in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Remove English stop words from the corpus and view the corpus
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)