Frequente termen met tm
Nu je weet hoe je een term-documentmatrix maakt, en ook de getransponeerde versie (de document-termmatrix), gebruiken we die als basis voor wat analyse. Om te kunnen analyseren, moeten we deze omzetten naar een gewone matrix, zoals we in hoofdstuk 1 deden met as.matrix().
Door rowSums() aan te roepen op je nieuwgemaakte matrix tel je alle termen op die in een tekst voorkomen. Zodra je de rowSums() hebt, kun je ze sort()en met decreasing = TRUE, zodat je je kunt richten op de meest voorkomende termen.
Tot slot kun je een barplot() maken van de top 5 termen van term_frequency met de volgende code.
barplot(term_frequency[1:5], col = "#C0DE25")
Natuurlijk kun je ook onze ggplot2-cursussen volgen om de plot nog verder te personaliseren… :)
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Maak
coffee_mals matrix met de term-documentmatrixcoffee_tdmuit het vorige hoofdstuk. - Maak
term_frequencymet de functierowSums()opcoffee_m. - Sorteer
term_frequencyin aflopende volgorde en sla het resultaat op interm_frequency. - Gebruik enkelvoudige vierkante haken (dus maar één
[) om de top 10 termen uitterm_frequencyte printen. - Maak een staafdiagram van de top 10 termen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
## coffee_tdm is still loaded in your workspace
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Calculate the row sums of coffee_m
term_frequency <- ___
# Sort term_frequency in decreasing order
term_frequency <- ___
# View the top 10 most common words
___
# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)