Häufige Begriffe mit tm

Jetzt, da du weißt, wie man eine Term-Dokument-Matrix erstellt und auch ihre Transponierte, die Dokument-Term-Matrix, nutzen wir sie als Grundlage für eine Analyse. Um sie zu analysieren, müssen wir sie wie in Kapitel 1 mit as.matrix() in eine einfache Matrix umwandeln.

Ein Aufruf von rowSums() auf deine neu erstellte Matrix aggregiert alle in einem Abschnitt verwendeten Terme. Sobald du die rowSums() hast, kannst du sie mit decreasing = TRUE per sort() sortieren, um dich auf die häufigsten Begriffe zu konzentrieren.

Zum Schluss kannst du mit folgendem Code ein barplot() der Top-5-Begriffe von term_frequency erstellen.

barplot(term_frequency[1:5], col = "#C0DE25")

Natürlich könntest du auch unsere ggplot2-Kurse machen, um das Diagramm noch weiter anzupassen … :)

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle coffee_m als Matrix mithilfe der Term-Dokument-Matrix coffee_tdm aus dem letzten Kapitel.
Erstelle term_frequency, indem du rowSums() auf coffee_m anwendest.
Sortiere term_frequency absteigend und speichere das Ergebnis wieder in term_frequency.
Verwende Subsetting mit einer einzelnen eckigen Klammer, also nur ein [, um die Top-10-Begriffe aus term_frequency auszugeben.
Erstelle ein Balkendiagramm der Top 10 Begriffe.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

## coffee_tdm is still loaded in your workspace

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Calculate the row sums of coffee_m
term_frequency <- ___

# Sort term_frequency in decreasing order
term_frequency <- ___

# View the top 10 most common words
___

# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)

Code bearbeiten und ausführen