Distanzmatrix und Dendrogramm

Eine einfache Methode für Wort-Cluster-Analysen ist ein Dendrogramm auf deiner Term-Dokument-Matrix. Sobald du eine TDM hast, kannst du dist() aufrufen, um die Unterschiede zwischen den Zeilen der Matrix zu berechnen.

Als Nächstes rufst du hclust() auf, um eine Clusteranalyse auf den Unähnlichkeiten der Distanzmatrix durchzuführen. Abschließend kannst du die Wortfrequenz-Distanzen mit einem Dendrogramm und plot() visualisieren. Gerade im Text Mining lassen sich so oft spannende Einsichten oder Wort-Cluster aus einem Dendrogramm herauslesen.

Betrachte die Tabelle mit den jährlichen Niederschlagsmengen aus dem letzten Video. Cleveland und Portland haben die gleiche Niederschlagsmenge, daher ist ihre Distanz 0. Du würdest erwarten, dass die beiden Städte ein Cluster bilden und New Orleans für sich steht, da es wesentlich mehr Regen bekommt.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Der Data Frame rain wurde in deinem Arbeitsbereich vorausgeladen.

Erzeuge dist_rain, indem du dist() auf die Werte in der zweiten Spalte von rain anwendest.
Gib die Matrix dist_rain in der Konsole aus.
Erzeuge hc, indem du eine Clusteranalyse mit hclust() auf dist_rain durchführst.
plot() das Objekt hc mit labels = rain$city, um die Städtenamen hinzuzufügen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create dist_rain
___ <- ___(___)

# View the distance matrix
___

# Create hc
___ <- ___(___)

# Plot hc
___(___, ___)

Code bearbeiten und ausführen