Matrice delle distanze e dendrogramma
Un modo semplice per fare analisi dei cluster di parole è usare un dendrogramma sulla tua matrice termine-documento. Una volta che hai una TDM, puoi chiamare dist() per calcolare le differenze tra ogni riga della matrice.
Poi, chiama hclust() per eseguire il clustering sulle dissimilarità della matrice delle distanze. Infine, puoi visualizzare le distanze tra le frequenze delle parole usando un dendrogramma e plot(). Spesso, nel text mining, da un dendrogramma puoi far emergere insight interessanti o gruppi di parole.
Considera la tabella delle piogge annuali che hai visto nell’ultimo video. Cleveland e Portland hanno la stessa quantità di pioggia, quindi la loro distanza è 0. Potresti aspettarti che le due città formino un cluster e che New Orleans rimanga da sola, dato che riceve molta più pioggia.
city rainfall
Cleveland 39.14
Portland 39.14
Boston 43.77
New Orleans 62.45
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
Il data frame rain è già caricato nel tuo workspace.
- Crea
dist_rainusando la funzionedist()sui valori della seconda colonna dirain. - Stampa in console la matrice
dist_rain. - Crea
hceseguendo un'analisi dei cluster conhclust()sudist_rain. - Esegui
plot()sull'oggettohcconlabels = rain$cityper aggiungere i nomi delle città.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create dist_rain
___ <- ___(___)
# View the distance matrix
___
# Create hc
___ <- ___(___)
# Plot hc
___(___, ___)