IniziaInizia gratis

Dendrogramma di amzn_cons

Dalle recensioni emerge una forte indicazione di orari di lavoro lunghi e scarso equilibrio tra vita privata e lavoro. Come tecnica di clustering semplice, decidi di eseguire un clustering gerarchico e creare un dendrogramma per vedere quanto siano connesse queste frasi.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea amzn_c_tdm come TermDocumentMatrix usando amzn_cons_corp con control = list(tokenize = tokenizer).
  • Stampa amzn_c_tdm nella console.
  • Crea amzn_c_tdm2 applicando la funzione removeSparseTerms() a amzn_c_tdm con l'argomento sparse uguale a .993.
  • Crea hc, un oggetto di clustering gerarchico, annidando la matrice delle distanze dist(amzn_c_tdm2) dentro la funzione hclust(). Assicurati anche di passare method = "complete" alla funzione hclust().
  • Esegui il plot di hc per visualizzare i bigrammi raggruppati e vedere come i concetti nella sezione dei contro di Amazon possano portarti a una conclusione.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Print amzn_c_tdm to the console
___

# Create amzn_c_tdm2 by removing sparse terms 
___ <- ___

# Create hc as a cluster of distance values
___ <- ___(___,
           ___)

# Produce a plot of hc
___
Modifica ed esegui il codice