Metti tutto insieme: un dendrogramma basato sul testo
È il momento di mettere all'opera le tue competenze per creare il tuo primo dendrogramma basato sul testo. Ricorda: i dendrogrammi riducono le informazioni per aiutarti a interpretare i dati. È un po' come quando una media ti dice qualcosa — ma non tutto — su una popolazione. Entrambi possono trarre in inganno. Con il testo, spesso compaiono molti cluster senza senso, ma possono emergere anche raggruppamenti utili.
Una particolarità degli oggetti TDM e DTM è che devi prima convertirli in matrici (con as.matrix()), prima di usarli con la funzione dist().
Per i tweet su chardonnay, potresti essere rimasto sorpreso di vedere la leggenda della soul music Marvin Gaye apparire nella word cloud. Vediamo se il dendrogramma rileva la stessa cosa.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Crea
tweets_tdm2applicandoremoveSparseTerms()atweets_tdm. Usasparse = 0.975. - Crea
tdm_musandoas.matrix()sutweets_tdm2per convertirlo in forma matriciale. - Crea
tweets_distcontenente le distanze ditdm_musando la funzionedist(). - Crea un oggetto di clustering gerarchico chiamato
hcusandohclust()sutweets_dist. - Disegna un dendrogramma con
plot()ehc.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create tweets_tdm2
___ <- ___(___, ___)
# Create tdm_m
___ <- ___(___)
# Create tweets_dist
___ <- ___(___)
# Create hc
___ <- ___(___)
# Plot the dendrogram
___(___)