Matrice delle distanze e dendrogramma

Un modo semplice per fare analisi dei cluster di parole è usare un dendrogramma sulla tua matrice termine-documento. Una volta che hai una TDM, puoi chiamare dist() per calcolare le differenze tra ogni riga della matrice.

Poi, chiama hclust() per eseguire il clustering sulle dissimilarità della matrice delle distanze. Infine, puoi visualizzare le distanze tra le frequenze delle parole usando un dendrogramma e plot(). Spesso, nel text mining, da un dendrogramma puoi far emergere insight interessanti o gruppi di parole.

Considera la tabella delle piogge annuali che hai visto nell’ultimo video. Cleveland e Portland hanno la stessa quantità di pioggia, quindi la loro distanza è 0. Potresti aspettarti che le due città formino un cluster e che New Orleans rimanga da sola, dato che riceve molta più pioggia.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza corso

Istruzioni dell'esercizio

Il data frame rain è già caricato nel tuo workspace.

Crea dist_rain usando la funzione dist() sui valori della seconda colonna di rain.
Stampa in console la matrice dist_rain.
Crea hc eseguendo un'analisi dei cluster con hclust() su dist_rain.
Esegui plot() sull'oggetto hc con labels = rain$city per aggiungere i nomi delle città.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create dist_rain
___ <- ___(___)

# View the distance matrix
___

# Create hc
___ <- ___(___)

# Plot hc
___(___, ___)

Modifica ed esegui il codice