IniziaInizia gratis

Metti tutto insieme: un dendrogramma basato sul testo

È il momento di mettere all'opera le tue competenze per creare il tuo primo dendrogramma basato sul testo. Ricorda: i dendrogrammi riducono le informazioni per aiutarti a interpretare i dati. È un po' come quando una media ti dice qualcosa — ma non tutto — su una popolazione. Entrambi possono trarre in inganno. Con il testo, spesso compaiono molti cluster senza senso, ma possono emergere anche raggruppamenti utili.

Una particolarità degli oggetti TDM e DTM è che devi prima convertirli in matrici (con as.matrix()), prima di usarli con la funzione dist().

Per i tweet su chardonnay, potresti essere rimasto sorpreso di vedere la leggenda della soul music Marvin Gaye apparire nella word cloud. Vediamo se il dendrogramma rileva la stessa cosa.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea tweets_tdm2 applicando removeSparseTerms() a tweets_tdm. Usa sparse = 0.975.
  • Crea tdm_m usando as.matrix() su tweets_tdm2 per convertirlo in forma matriciale.
  • Crea tweets_dist contenente le distanze di tdm_m usando la funzione dist().
  • Crea un oggetto di clustering gerarchico chiamato hc usando hclust() su tweets_dist.
  • Disegna un dendrogramma con plot() e hc.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create tweets_tdm2
___ <- ___(___, ___)

# Create tdm_m
___ <- ___(___)

# Create tweets_dist
___ <- ___(___)

# Create hc
___ <- ___(___)

# Plot the dendrogram
___(___)
Modifica ed esegui il codice