Frequente termen met qdap

Als je het niet erg vindt om wat controle over de exacte preprocessing-stappen los te laten, is een snelle manier om frequente termen te krijgen via freq_terms() uit qdap.

De functie accepteert een tekstvariabele, in ons geval de vector tweets$text. Je kunt met het argument top aangeven hoeveel termen je wilt zien, met het argument stopwords een vector met stopwoorden opgeven die je wilt verwijderen, en met het argument at.least de minimale woordlengte instellen. qdap heeft een eigen lijst met stopwoorden die verschilt van die in tm. In deze oefening zie je hoe je beide kunt gebruiken en hun resultaten kunt vergelijken.

Een eenvoudige plot van de resultaten maken is makkelijk: roep gewoon plot() aan op het freq_terms()-object.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create frequency
frequency <- ___(
  ___, 
  top = ___, 
  at.least = ___, 
  stopwords = ___
)

# Make a frequency bar chart

Code bewerken en uitvoeren