amzn_cons-Dendrogramm
In den Rezensionen gibt es deutliche Hinweise auf lange Arbeitszeiten und eine schlechte Work-Life-Balance. Als einfache Clustering-Technik entscheidest du dich für ein hierarchisches Clustering und erstellst ein Dendrogramm, um zu sehen, wie stark diese Phrasen zusammenhängen.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Erstelle
amzn_c_tdmalsTermDocumentMatrixauf Basis vonamzn_cons_corpmitcontrol = list(tokenize = tokenizer). - Gib
amzn_c_tdmin der Konsole aus. - Erstelle
amzn_c_tdm2, indem du die FunktionremoveSparseTerms()aufamzn_c_tdmmit dem Argumentsparsegleich.993anwendest. - Erstelle
hc, ein Objekt für hierarchisches Clustering, indem du die Distanzmatrixdist(amzn_c_tdm2)in die Funktionhclust()verschachtelst. Achte darauf, zusätzlichmethod = "complete"anhclust()zu übergeben. - Plotte
hc, um die gruppierten Bigramme zu betrachten und zu sehen, wie dich die Konzepte im Amazon-Cons-Abschnitt zu einem Fazit führen könnten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Print amzn_c_tdm to the console
___
# Create amzn_c_tdm2 by removing sparse terms
___ <- ___
# Create hc as a cluster of distance values
___ <- ___(___,
___)
# Produce a plot of hc
___