Alles zusammenführen: ein textbasiertes Dendrogramm
Zeit, deine Skills einzusetzen und dein erstes textbasiertes Dendrogramm zu erstellen. Denk daran: Dendrogramme reduzieren Informationen, damit du die Daten besser verstehen kannst. Das ist ähnlich wie ein Mittelwert – er sagt dir etwas, aber nicht alles, über eine Grundgesamtheit. Beides kann in die Irre führen. Bei Text treten oft viele unsinnige Cluster auf, aber es können auch wertvolle Cluster sichtbar werden.
Eine Besonderheit von TDM- und DTM-Objekten ist, dass du sie vor der Verwendung mit der Funktion dist() zunächst in Matrizen umwandeln musst (mit as.matrix()).
Bei den Chardonnay-Tweets hat dich vielleicht überrascht, dass die Soul-Legende Marvin Gaye in der Wortwolke auftaucht. Schauen wir mal, ob das Dendrogramm dasselbe zeigt.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Erstelle
tweets_tdm2, indem duremoveSparseTerms()auftweets_tdmanwendest. Verwendesparse = 0.975. - Erstelle
tdm_m, indem duas.matrix()auftweets_tdm2anwendest, um es in eine Matrix zu konvertieren. - Erstelle
tweets_dist, das die Distanzen vontdm_mmit der Funktiondist()enthält. - Erzeuge ein hierarchisches Cluster-Objekt namens
hcmithclust()auftweets_dist. - Erstelle ein Dendrogramm mit
plot()undhc.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create tweets_tdm2
___ <- ___(___, ___)
# Create tdm_m
___ <- ___(___)
# Create tweets_dist
___ <- ___(___)
# Create hc
___ <- ___(___)
# Plot the dendrogram
___(___)