Dendrogramma di amzn_cons
Dalle recensioni emerge una forte indicazione di orari di lavoro lunghi e scarso equilibrio tra vita privata e lavoro. Come tecnica di clustering semplice, decidi di eseguire un clustering gerarchico e creare un dendrogramma per vedere quanto siano connesse queste frasi.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Crea
amzn_c_tdmcomeTermDocumentMatrixusandoamzn_cons_corpconcontrol = list(tokenize = tokenizer). - Stampa
amzn_c_tdmnella console. - Crea
amzn_c_tdm2applicando la funzioneremoveSparseTerms()aamzn_c_tdmcon l'argomentosparseuguale a.993. - Crea
hc, un oggetto di clustering gerarchico, annidando la matrice delle distanzedist(amzn_c_tdm2)dentro la funzionehclust(). Assicurati anche di passaremethod = "complete"alla funzionehclust(). - Esegui il plot di
hcper visualizzare i bigrammi raggruppati e vedere come i concetti nella sezione dei contro di Amazon possano portarti a una conclusione.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Print amzn_c_tdm to the console
___
# Create amzn_c_tdm2 by removing sparse terms
___ <- ___
# Create hc as a cluster of distance values
___ <- ___(___,
___)
# Produce a plot of hc
___