Erstelle eine Dokument-Term-Matrix
Hoffentlich bist du nach all der grundlegenden Text-Mining-Arbeit nicht zu müde! Zur Sicherheit schauen wir noch einmal auf den Kaffee und holen uns etwas von Starbucks, während wir aus Kaffee-Tweets eine Dokument-Term-Matrix bauen.
Ausgehend von der Datei coffee.csv haben wir gängige Transformationen angewendet und so ein bereinigtes Korpus namens clean_corp erstellt.
Die Dokument-Term-Matrix wird verwendet, wenn du jedes Dokument als Zeile darstellen möchtest. Das ist hilfreich, wenn du Autorinnen und Autoren zeilenweise vergleichst oder wenn die Daten chronologisch angeordnet sind und du die Zeitreihe erhalten willst. Das Paket tm verwendet eine „simple triplet matrix“-Klasse. Häufig ist es jedoch einfacher, das Objekt zu bearbeiten und zu untersuchen, wenn du die DTM mit as.matrix() in eine normale Matrix umwandelst.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Erstelle
coffee_dtm, indem duDocumentTermMatrix()aufclean_corpanwendest. - Erstelle
coffee_m, eine Matrix-Version voncoffee_dtm, mithilfe vonas.matrix(). - Gib die Dimensionen von
coffee_mmit der Funktiondim()in der Konsole aus. Achte auf die Anzahl der Zeilen und Spalten. - Gib den Ausschnitt von
coffee_maus, der die Dokumente (Zeilen) 25 bis 35 und die Terme (Spalten)"star"und"starbucks"enthält.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create the document-term matrix from the corpus
coffee_dtm <- ___
# Print out coffee_dtm data
coffee_dtm
# Convert coffee_dtm to a matrix
coffee_m <- ___
# Print the dimensions of coffee_m
___
# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]