Erstelle eine Term-Dokument-Matrix
Gleich hast du das weniger spannende Grundlagenwerk geschafft – dann geht’s weiter mit coolen Visualisierungen und Analysen auf Basis der Konzepte, die du bisher gelernt hast!
In dieser Übung führst du einen ähnlichen Prozess durch, nimmst aber die Transponierte der Dokument-Term-Matrix. In diesem Fall hat die Term-Dokument-Matrix die Terme in der ersten Spalte und die Dokumente oben als einzelne Spaltennamen.
Die TDM ist häufig die Matrix, die für Sprachanalysen verwendet wird. Das liegt daran, dass du in der Regel mehr Terme als Autor:innen oder Dokumente hast – und es generell einfacher ist, wenn du mehr Zeilen als Spalten hast. Ein einfacher Einstieg in die Analyse besteht darin, die Matrix mit as.matrix() auf der TDM in eine einfache Matrix umzuwandeln.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Erzeuge
coffee_tdm, indem duTermDocumentMatrix()aufclean_corpanwendest. - Erzeuge
coffee_m, indem ducoffee_tdmmitas.matrix()in eine Matrix umwandelst. - Gib die Dimensionen von
coffee_min der Konsole aus. Achte auf die Anzahl der Zeilen und Spalten. - Gib den Teilbereich von
coffee_maus, der die Terme (Zeilen)"star"und"starbucks"sowie die Dokumente (Spalten) 25 bis 35 enthält.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a term-document matrix from the corpus
coffee_tdm <- ___
# Print coffee_tdm data
coffee_tdm
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Print the dimensions of the matrix
___
# Review a portion of the matrix
___[___, ___]