LoslegenKostenlos loslegen

Alles zusammenführen: ein textbasiertes Dendrogramm

Zeit, deine Skills einzusetzen und dein erstes textbasiertes Dendrogramm zu erstellen. Denk daran: Dendrogramme reduzieren Informationen, damit du die Daten besser verstehen kannst. Das ist ähnlich wie ein Mittelwert – er sagt dir etwas, aber nicht alles, über eine Grundgesamtheit. Beides kann in die Irre führen. Bei Text treten oft viele unsinnige Cluster auf, aber es können auch wertvolle Cluster sichtbar werden.

Eine Besonderheit von TDM- und DTM-Objekten ist, dass du sie vor der Verwendung mit der Funktion dist() zunächst in Matrizen umwandeln musst (mit as.matrix()).

Bei den Chardonnay-Tweets hat dich vielleicht überrascht, dass die Soul-Legende Marvin Gaye in der Wortwolke auftaucht. Schauen wir mal, ob das Dendrogramm dasselbe zeigt.

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

  • Erstelle tweets_tdm2, indem du removeSparseTerms() auf tweets_tdm anwendest. Verwende sparse = 0.975.
  • Erstelle tdm_m, indem du as.matrix() auf tweets_tdm2 anwendest, um es in eine Matrix zu konvertieren.
  • Erstelle tweets_dist, das die Distanzen von tdm_m mit der Funktion dist() enthält.
  • Erzeuge ein hierarchisches Cluster-Objekt namens hc mit hclust() auf tweets_dist.
  • Erstelle ein Dendrogramm mit plot() und hc.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create tweets_tdm2
___ <- ___(___, ___)

# Create tdm_m
___ <- ___(___)

# Create tweets_dist
___ <- ___(___)

# Create hc
___ <- ___(___)

# Plot the dendrogram
___(___)
Code bearbeiten und ausführen