Eine TDM dendrogrammfreundlich machen
Jetzt, da du die Schritte zum Erstellen eines Dendrogramms kennst, kannst du sie auf Text anwenden. Zuerst musst du jedoch die Anzahl der Wörter in deiner TDM mit removeSparseTerms() aus tm begrenzen. Warum solltest du die Sparsity der TDM/DTM anpassen?
TDMs und DTMs sind spärlich besetzt, das heißt, sie bestehen größtenteils aus Nullen. Denk daran: Aus 1000 Tweets kann eine TDM mit über 3000 Begriffen werden! Ein so überladenes Dendrogramm lässt sich kaum sinnvoll interpretieren – besonders, wenn du mit noch mehr Text arbeitest.
In den meisten professionellen Umgebungen basiert ein gutes Dendrogramm auf einer TDM mit 25 bis 70 Begriffen. Mehr als 70 Begriffe bedeuten oft, dass die Visualisierung überladen und schwer verständlich ist. Umgekehrt führt weniger als 25 Begriffe wahrscheinlich dazu, dass dein Dendrogramm keine relevanten, aufschlussreichen Cluster zeigt.
Bei removeSparseTerms() steuert der Parameter sparse, wie viele Gesamtbegriffe in der TDM verbleiben. Je näher sparse an 1 liegt, desto mehr Begriffe bleiben erhalten. Dieser Wert entspricht einem prozentualen Grenzwert an Nullen pro Begriff in der TDM.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
tweets_tdm wurde mit den Chardonnay-Tweets erstellt.
- Gib die Dimensionen von
tweets_tdmin der Konsole aus. - Erstelle
tdm1mitremoveSparseTerms()undsparse = 0.95auftweets_tdm. - Erstelle
tdm2mitremoveSparseTerms()undsparse = 0.975auftweets_tdm. - Gib
tdm1in der Konsole aus, um zu sehen, wie viele Begriffe übrig sind. - Gib
tdm2in der Konsole aus, um zu sehen, wie viele Begriffe übrig sind.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Print the dimensions of tweets_tdm
___
# Create tdm1
___ <- ___(___, ___)
# Create tdm2
___ <- ___(___, ___)
# Print tdm1
___
# Print tdm2
___