Erstelle eine Dokument-Term-Matrix

Hoffentlich bist du nach all der grundlegenden Text-Mining-Arbeit nicht zu müde! Zur Sicherheit schauen wir noch einmal auf den Kaffee und holen uns etwas von Starbucks, während wir aus Kaffee-Tweets eine Dokument-Term-Matrix bauen.

Ausgehend von der Datei coffee.csv haben wir gängige Transformationen angewendet und so ein bereinigtes Korpus namens clean_corp erstellt.

Die Dokument-Term-Matrix wird verwendet, wenn du jedes Dokument als Zeile darstellen möchtest. Das ist hilfreich, wenn du Autorinnen und Autoren zeilenweise vergleichst oder wenn die Daten chronologisch angeordnet sind und du die Zeitreihe erhalten willst. Das Paket tm verwendet eine „simple triplet matrix“-Klasse. Häufig ist es jedoch einfacher, das Objekt zu bearbeiten und zu untersuchen, wenn du die DTM mit as.matrix() in eine normale Matrix umwandelst.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle coffee_dtm, indem du DocumentTermMatrix() auf clean_corp anwendest.
Erstelle coffee_m, eine Matrix-Version von coffee_dtm, mithilfe von as.matrix().
Gib die Dimensionen von coffee_m mit der Funktion dim() in der Konsole aus. Achte auf die Anzahl der Zeilen und Spalten.
Gib den Ausschnitt von coffee_m aus, der die Dokumente (Zeilen) 25 bis 35 und die Terme (Spalten) "star" und "starbucks" enthält.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create the document-term matrix from the corpus
coffee_dtm <- ___

# Print out coffee_dtm data
coffee_dtm

# Convert coffee_dtm to a matrix
coffee_m <- ___

# Print the dimensions of coffee_m
___

# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]

Code bearbeiten und ausführen