IniziaInizia gratis

Termini frequenti con tm

Ora che sai creare una matrice termini-documenti e, invertendola, una matrice documenti-termini, useremo questa struttura come base per alcune analisi. Per poterla analizzare, dobbiamo trasformarla in una semplice matrice, come abbiamo fatto nel capitolo 1 usando as.matrix().

Chiamando rowSums() sulla nuova matrice aggreghi tutti i termini usati in un testo. Una volta calcolati i rowSums(), puoi sort() i risultati con decreasing = TRUE, così da concentrarti sui termini più comuni.

Infine, puoi creare un barplot() dei primi 5 termini di term_frequency con il seguente codice.

barplot(term_frequency[1:5], col = "#C0DE25")

Ovviamente, puoi seguire i nostri corsi su ggplot2 per imparare a personalizzare ancora di più il grafico… :)

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea coffee_m come matrice usando la matrice termini-documenti coffee_tdm del capitolo precedente.
  • Crea term_frequency usando la funzione rowSums() su coffee_m.
  • Ordina term_frequency in ordine decrescente e salva il risultato in term_frequency.
  • Usa il sottoinsieme con una sola parentesi quadra, cioè solo una [, per stampare i primi 10 termini da term_frequency.
  • Crea un barplot dei primi 10 termini.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

## coffee_tdm is still loaded in your workspace

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Calculate the row sums of coffee_m
term_frequency <- ___

# Sort term_frequency in decreasing order
term_frequency <- ___

# View the top 10 most common words
___

# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)
Modifica ed esegui il codice