Aan de slagGa gratis aan de slag

amzn_cons dendrogram

Het lijkt erop dat de reviews sterk wijzen op lange werkuren en een slechte werk-privébalans. Als eenvoudige clusteringtechniek besluit je een hiërarchische clustering uit te voeren en een dendrogram te maken om te zien hoe sterk deze zinsdelen met elkaar samenhangen.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Cursus bekijken

Oefeninstructies

  • Maak amzn_c_tdm als een TermDocumentMatrix met amzn_cons_corp en control = list(tokenize = tokenizer).
  • Print amzn_c_tdm naar de console.
  • Maak amzn_c_tdm2 door de functie removeSparseTerms() toe te passen op amzn_c_tdm met het argument sparse gelijk aan .993.
  • Maak hc, een hiërarchisch clusterobject, door de afstandsmatrix dist(amzn_c_tdm2) te nesten binnen de functie hclust(). Zorg er ook voor dat je method = "complete" meegeeft aan de functie hclust().
  • Plot hc om de geclusterde bigrammen te bekijken en te zien hoe de concepten in de Amazon-cons-sectie je tot een conclusie kunnen leiden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Print amzn_c_tdm to the console
___

# Create amzn_c_tdm2 by removing sparse terms 
___ <- ___

# Create hc as a cluster of distance values
___ <- ___(___,
           ___)

# Produce a plot of hc
___
Code bewerken en uitvoeren