Aan de slagGa gratis aan de slag

Frequente termen met qdap

Als je het niet erg vindt om wat controle over de exacte preprocessing-stappen los te laten, is een snelle manier om frequente termen te krijgen via freq_terms() uit qdap.

De functie accepteert een tekstvariabele, in ons geval de vector tweets$text. Je kunt met het argument top aangeven hoeveel termen je wilt zien, met het argument stopwords een vector met stopwoorden opgeven die je wilt verwijderen, en met het argument at.least de minimale woordlengte instellen. qdap heeft een eigen lijst met stopwoorden die verschilt van die in tm. In deze oefening zie je hoe je beide kunt gebruiken en hun resultaten kunt vergelijken.

Een eenvoudige plot van de resultaten maken is makkelijk: roep gewoon plot() aan op het freq_terms()-object.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create frequency
frequency <- ___(
  ___, 
  top = ___, 
  at.least = ___, 
  stopwords = ___
)

# Make a frequency bar chart
Code bewerken en uitvoeren