Termini frequenti con tm
Ora che sai creare una matrice termini-documenti e, invertendola, una matrice documenti-termini, useremo questa struttura come base per alcune analisi. Per poterla analizzare, dobbiamo trasformarla in una semplice matrice, come abbiamo fatto nel capitolo 1 usando as.matrix().
Chiamando rowSums() sulla nuova matrice aggreghi tutti i termini usati in un testo. Una volta calcolati i rowSums(), puoi sort() i risultati con decreasing = TRUE, così da concentrarti sui termini più comuni.
Infine, puoi creare un barplot() dei primi 5 termini di term_frequency con il seguente codice.
barplot(term_frequency[1:5], col = "#C0DE25")
Ovviamente, puoi seguire i nostri corsi su ggplot2 per imparare a personalizzare ancora di più il grafico… :)
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Crea
coffee_mcome matrice usando la matrice termini-documenticoffee_tdmdel capitolo precedente. - Crea
term_frequencyusando la funzionerowSums()sucoffee_m. - Ordina
term_frequencyin ordine decrescente e salva il risultato interm_frequency. - Usa il sottoinsieme con una sola parentesi quadra, cioè solo una
[, per stampare i primi 10 termini daterm_frequency. - Crea un barplot dei primi 10 termini.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
## coffee_tdm is still loaded in your workspace
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Calculate the row sums of coffee_m
term_frequency <- ___
# Sort term_frequency in decreasing order
term_frequency <- ___
# View the top 10 most common words
___
# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)