Distanzmatrix und Dendrogramm
Eine einfache Methode für Wort-Cluster-Analysen ist ein Dendrogramm auf deiner Term-Dokument-Matrix. Sobald du eine TDM hast, kannst du dist() aufrufen, um die Unterschiede zwischen den Zeilen der Matrix zu berechnen.
Als Nächstes rufst du hclust() auf, um eine Clusteranalyse auf den Unähnlichkeiten der Distanzmatrix durchzuführen. Abschließend kannst du die Wortfrequenz-Distanzen mit einem Dendrogramm und plot() visualisieren. Gerade im Text Mining lassen sich so oft spannende Einsichten oder Wort-Cluster aus einem Dendrogramm herauslesen.
Betrachte die Tabelle mit den jährlichen Niederschlagsmengen aus dem letzten Video. Cleveland und Portland haben die gleiche Niederschlagsmenge, daher ist ihre Distanz 0. Du würdest erwarten, dass die beiden Städte ein Cluster bilden und New Orleans für sich steht, da es wesentlich mehr Regen bekommt.
city rainfall
Cleveland 39.14
Portland 39.14
Boston 43.77
New Orleans 62.45
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
Der Data Frame rain wurde in deinem Arbeitsbereich vorausgeladen.
- Erzeuge
dist_rain, indem dudist()auf die Werte in der zweiten Spalte vonrainanwendest. - Gib die Matrix
dist_rainin der Konsole aus. - Erzeuge
hc, indem du eine Clusteranalyse mithclust()aufdist_raindurchführst. plot()das Objekthcmitlabels = rain$city, um die Städtenamen hinzuzufügen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create dist_rain
___ <- ___(___)
# View the distance matrix
___
# Create hc
___ <- ___(___)
# Plot hc
___(___, ___)