LoslegenKostenlos loslegen

amzn_cons-Dendrogramm

In den Rezensionen gibt es deutliche Hinweise auf lange Arbeitszeiten und eine schlechte Work-Life-Balance. Als einfache Clustering-Technik entscheidest du dich für ein hierarchisches Clustering und erstellst ein Dendrogramm, um zu sehen, wie stark diese Phrasen zusammenhängen.

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

  • Erstelle amzn_c_tdm als TermDocumentMatrix auf Basis von amzn_cons_corp mit control = list(tokenize = tokenizer).
  • Gib amzn_c_tdm in der Konsole aus.
  • Erstelle amzn_c_tdm2, indem du die Funktion removeSparseTerms() auf amzn_c_tdm mit dem Argument sparse gleich .993 anwendest.
  • Erstelle hc, ein Objekt für hierarchisches Clustering, indem du die Distanzmatrix dist(amzn_c_tdm2) in die Funktion hclust() verschachtelst. Achte darauf, zusätzlich method = "complete" an hclust() zu übergeben.
  • Plotte hc, um die gruppierten Bigramme zu betrachten und zu sehen, wie dich die Konzepte im Amazon-Cons-Abschnitt zu einem Fazit führen könnten.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Print amzn_c_tdm to the console
___

# Create amzn_c_tdm2 by removing sparse terms 
___ <- ___

# Create hc as a cluster of distance values
___ <- ___(___,
           ___)

# Produce a plot of hc
___
Code bearbeiten und ausführen