Eine TDM dendrogrammfreundlich machen

Jetzt, da du die Schritte zum Erstellen eines Dendrogramms kennst, kannst du sie auf Text anwenden. Zuerst musst du jedoch die Anzahl der Wörter in deiner TDM mit removeSparseTerms() aus tm begrenzen. Warum solltest du die Sparsity der TDM/DTM anpassen?

TDMs und DTMs sind spärlich besetzt, das heißt, sie bestehen größtenteils aus Nullen. Denk daran: Aus 1000 Tweets kann eine TDM mit über 3000 Begriffen werden! Ein so überladenes Dendrogramm lässt sich kaum sinnvoll interpretieren – besonders, wenn du mit noch mehr Text arbeitest.

In den meisten professionellen Umgebungen basiert ein gutes Dendrogramm auf einer TDM mit 25 bis 70 Begriffen. Mehr als 70 Begriffe bedeuten oft, dass die Visualisierung überladen und schwer verständlich ist. Umgekehrt führt weniger als 25 Begriffe wahrscheinlich dazu, dass dein Dendrogramm keine relevanten, aufschlussreichen Cluster zeigt.

Bei removeSparseTerms() steuert der Parameter sparse, wie viele Gesamtbegriffe in der TDM verbleiben. Je näher sparse an 1 liegt, desto mehr Begriffe bleiben erhalten. Dieser Wert entspricht einem prozentualen Grenzwert an Nullen pro Begriff in der TDM.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

tweets_tdm wurde mit den Chardonnay-Tweets erstellt.

Gib die Dimensionen von tweets_tdm in der Konsole aus.
Erstelle tdm1 mit removeSparseTerms() und sparse = 0.95 auf tweets_tdm.
Erstelle tdm2 mit removeSparseTerms() und sparse = 0.975 auf tweets_tdm.
Gib tdm1 in der Konsole aus, um zu sehen, wie viele Begriffe übrig sind.
Gib tdm2 in der Konsole aus, um zu sehen, wie viele Begriffe übrig sind.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Print the dimensions of tweets_tdm
___

# Create tdm1
___ <- ___(___, ___)

# Create tdm2
___ <- ___(___, ___)

# Print tdm1
___

# Print tdm2
___

Code bearbeiten und ausführen