amzn_cons dendrogram
Het lijkt erop dat de reviews sterk wijzen op lange werkuren en een slechte werk-privébalans. Als eenvoudige clusteringtechniek besluit je een hiërarchische clustering uit te voeren en een dendrogram te maken om te zien hoe sterk deze zinsdelen met elkaar samenhangen.
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Maak
amzn_c_tdmals eenTermDocumentMatrixmetamzn_cons_corpencontrol = list(tokenize = tokenizer). - Print
amzn_c_tdmnaar de console. - Maak
amzn_c_tdm2door de functieremoveSparseTerms()toe te passen opamzn_c_tdmmet het argumentsparsegelijk aan.993. - Maak
hc, een hiërarchisch clusterobject, door de afstandsmatrixdist(amzn_c_tdm2)te nesten binnen de functiehclust(). Zorg er ook voor dat jemethod = "complete"meegeeft aan de functiehclust(). - Plot
hcom de geclusterde bigrammen te bekijken en te zien hoe de concepten in de Amazon-cons-sectie je tot een conclusie kunnen leiden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Print amzn_c_tdm to the console
___
# Create amzn_c_tdm2 by removing sparse terms
___ <- ___
# Create hc as a cluster of distance values
___ <- ___(___,
___)
# Produce a plot of hc
___