Bouw een corpus en zet om naar kleine letters
Een corpus is een lijst met tekstdocumenten. Je moet de tweet-tekst omzetten naar een corpus om de volgende stappen in tekstverwerking mogelijk te maken.
Bij tekstanalyse wil je voorkomen dat een woord als twee verschillende woorden wordt geteld omdat de hoofd-/kleine letters verschillen. Daarom moet je tekst omzetten naar kleine letters.
In deze oefening maak je een tekstcorpus en zet je alle tekens om naar kleine letters.
De opgeschoonde tekstuitvoer van de vorige oefening is vooraf geladen als twts_gsub.
De bibliotheek tm is voor deze oefening vooraf geladen.
Deze oefening maakt deel uit van de cursus
Socialemediagegevens analyseren in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Convert text in "twt_gsub" dataset to a text corpus and view output
twt_corpus <- twt_gsub %>%
___() %>%
___()
head(twt_corpus$___)