Häufige Terme mit qdap
Wenn es für dich in Ordnung ist, bei den konkreten Vorverarbeitungsschritten etwas Kontrolle abzugeben, kannst du mit freq_terms() aus qdap schnell häufige Terme ermitteln.
Die Funktion erwartet eine Textvariable, in unserem Fall den Vektor tweets$text. Mit dem Argument top gibst du an, wie viele der häufigsten Terme angezeigt werden sollen, mit dem Argument stopwords übergibst du einen Vektor von Stoppwörtern, die entfernt werden sollen, und mit at.least legst du die minimale Zeichenlänge eines Wortes fest, damit es berücksichtigt wird. qdap hat eine eigene Liste von Stoppwörtern, die sich von denen in tm unterscheidet. In dieser Übung lernst du, wie du beide verwenden und ihre Ergebnisse vergleichen kannst.
Ein grundlegendes Diagramm der Ergebnisse zu erstellen, ist einfach. Ruf dafür einfach plot() auf dem freq_terms()-Objekt auf.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create frequency
frequency <- ___(
___,
top = ___,
at.least = ___,
stopwords = ___
)
# Make a frequency bar chart