Frequente termen met tm

Nu je weet hoe je een term-documentmatrix maakt, en ook de getransponeerde versie (de document-termmatrix), gebruiken we die als basis voor wat analyse. Om te kunnen analyseren, moeten we deze omzetten naar een gewone matrix, zoals we in hoofdstuk 1 deden met as.matrix().

Door rowSums() aan te roepen op je nieuwgemaakte matrix tel je alle termen op die in een tekst voorkomen. Zodra je de rowSums() hebt, kun je ze sort()en met decreasing = TRUE, zodat je je kunt richten op de meest voorkomende termen.

Tot slot kun je een barplot() maken van de top 5 termen van term_frequency met de volgende code.

barplot(term_frequency[1:5], col = "#C0DE25")

Natuurlijk kun je ook onze ggplot2-cursussen volgen om de plot nog verder te personaliseren… :)

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Maak coffee_m als matrix met de term-documentmatrix coffee_tdm uit het vorige hoofdstuk.
Maak term_frequency met de functie rowSums() op coffee_m.
Sorteer term_frequency in aflopende volgorde en sla het resultaat op in term_frequency.
Gebruik enkelvoudige vierkante haken (dus maar één [) om de top 10 termen uit term_frequency te printen.
Maak een staafdiagram van de top 10 termen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

## coffee_tdm is still loaded in your workspace

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Calculate the row sums of coffee_m
term_frequency <- ___

# Sort term_frequency in decreasing order
term_frequency <- ___

# View the top 10 most common words
___

# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)

Code bewerken en uitvoeren