Erstelle eine Term-Dokument-Matrix

Gleich hast du das weniger spannende Grundlagenwerk geschafft – dann geht’s weiter mit coolen Visualisierungen und Analysen auf Basis der Konzepte, die du bisher gelernt hast!

In dieser Übung führst du einen ähnlichen Prozess durch, nimmst aber die Transponierte der Dokument-Term-Matrix. In diesem Fall hat die Term-Dokument-Matrix die Terme in der ersten Spalte und die Dokumente oben als einzelne Spaltennamen.

Die TDM ist häufig die Matrix, die für Sprachanalysen verwendet wird. Das liegt daran, dass du in der Regel mehr Terme als Autor:innen oder Dokumente hast – und es generell einfacher ist, wenn du mehr Zeilen als Spalten hast. Ein einfacher Einstieg in die Analyse besteht darin, die Matrix mit as.matrix() auf der TDM in eine einfache Matrix umzuwandeln.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Erzeuge coffee_tdm, indem du TermDocumentMatrix() auf clean_corp anwendest.
Erzeuge coffee_m, indem du coffee_tdm mit as.matrix() in eine Matrix umwandelst.
Gib die Dimensionen von coffee_m in der Konsole aus. Achte auf die Anzahl der Zeilen und Spalten.
Gib den Teilbereich von coffee_m aus, der die Terme (Zeilen) "star" und "starbucks" sowie die Dokumente (Spalten) 25 bis 35 enthält.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a term-document matrix from the corpus
coffee_tdm <- ___

# Print coffee_tdm data
coffee_tdm

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Print the dimensions of the matrix
___

# Review a portion of the matrix
___[___, ___]

Code bearbeiten und ausführen