Frequente termen met qdap
Als je het niet erg vindt om wat controle over de exacte preprocessing-stappen los te laten, is een snelle manier om frequente termen te krijgen via freq_terms() uit qdap.
De functie accepteert een tekstvariabele, in ons geval de vector tweets$text. Je kunt met het argument top aangeven hoeveel termen je wilt zien, met het argument stopwords een vector met stopwoorden opgeven die je wilt verwijderen, en met het argument at.least de minimale woordlengte instellen. qdap heeft een eigen lijst met stopwoorden die verschilt van die in tm. In deze oefening zie je hoe je beide kunt gebruiken en hun resultaten kunt vergelijken.
Een eenvoudige plot van de resultaten maken is makkelijk: roep gewoon plot() aan op het freq_terms()-object.
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create frequency
frequency <- ___(
___,
top = ___,
at.least = ___,
stopwords = ___
)
# Make a frequency bar chart