Häufige Begriffe mit tm
Jetzt, da du weißt, wie man eine Term-Dokument-Matrix erstellt und auch ihre Transponierte, die Dokument-Term-Matrix, nutzen wir sie als Grundlage für eine Analyse. Um sie zu analysieren, müssen wir sie wie in Kapitel 1 mit as.matrix() in eine einfache Matrix umwandeln.
Ein Aufruf von rowSums() auf deine neu erstellte Matrix aggregiert alle in einem Abschnitt verwendeten Terme. Sobald du die rowSums() hast, kannst du sie mit decreasing = TRUE per sort() sortieren, um dich auf die häufigsten Begriffe zu konzentrieren.
Zum Schluss kannst du mit folgendem Code ein barplot() der Top-5-Begriffe von term_frequency erstellen.
barplot(term_frequency[1:5], col = "#C0DE25")
Natürlich könntest du auch unsere ggplot2-Kurse machen, um das Diagramm noch weiter anzupassen … :)
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Erstelle
coffee_mals Matrix mithilfe der Term-Dokument-Matrixcoffee_tdmaus dem letzten Kapitel. - Erstelle
term_frequency, indem durowSums()aufcoffee_manwendest. - Sortiere
term_frequencyabsteigend und speichere das Ergebnis wieder interm_frequency. - Verwende Subsetting mit einer einzelnen eckigen Klammer, also nur ein
[, um die Top-10-Begriffe austerm_frequencyauszugeben. - Erstelle ein Balkendiagramm der Top 10 Begriffe.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
## coffee_tdm is still loaded in your workspace
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Calculate the row sums of coffee_m
term_frequency <- ___
# Sort term_frequency in decreasing order
term_frequency <- ___
# View the top 10 most common words
___
# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)