amzn_cons-Dendrogramm

In den Rezensionen gibt es deutliche Hinweise auf lange Arbeitszeiten und eine schlechte Work-Life-Balance. Als einfache Clustering-Technik entscheidest du dich für ein hierarchisches Clustering und erstellst ein Dendrogramm, um zu sehen, wie stark diese Phrasen zusammenhängen.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle amzn_c_tdm als TermDocumentMatrix auf Basis von amzn_cons_corp mit control = list(tokenize = tokenizer).
Gib amzn_c_tdm in der Konsole aus.
Erstelle amzn_c_tdm2, indem du die Funktion removeSparseTerms() auf amzn_c_tdm mit dem Argument sparse gleich .993 anwendest.
Erstelle hc, ein Objekt für hierarchisches Clustering, indem du die Distanzmatrix dist(amzn_c_tdm2) in die Funktion hclust() verschachtelst. Achte darauf, zusätzlich method = "complete" an hclust() zu übergeben.
Plotte hc, um die gruppierten Bigramme zu betrachten und zu sehen, wie dich die Konzepte im Amazon-Cons-Abschnitt zu einem Fazit führen könnten.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Print amzn_c_tdm to the console
___

# Create amzn_c_tdm2 by removing sparse terms 
___ <- ___

# Create hc as a cluster of distance values
___ <- ___(___,
           ___)

# Produce a plot of hc
___

Code bearbeiten und ausführen