Metadaten in tm erfassen
Je nach Ziel kann es sinnvoll sein, beim Erstellen eines Korpus Metadaten zum Dokument beizubehalten.
Um Metadaten auf Dokumentebene zu erfassen, müssen die Spaltennamen und ihre Reihenfolge wie folgt sein:
doc_id– eine eindeutige Zeichenkette für jedes Dokumenttext– der zu untersuchende Text...– alle weiteren Spalten werden automatisch als Metadaten erfasst.
Manchmal musst du Spalten umbenennen, um die Erwartungen von DataframeSource() zu erfüllen. Die Funktion names() ist dafür hilfreich.
tweets liegt in deinem Workspace als Data Frame mit den Spalten „num“, „text“, „screenName“ und „created“ vor.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Benenne die erste Spalte von
tweetsin "doc_id" um. - Setze das Dokumentenschema mit
DataframeSource()auf dem kleinerentweets-Data-Frame. - Mach die Dokumentensammlung zu einem flüchtigen Korpus, verschachtelt in der benutzerdefinierten Funktion
clean_corpus(). - Wende
content()auf den ersten Tweet mit doppelten eckigen Klammern wietext_corpus[[1]]an, um den bereinigten Plaintext zu sehen. - Bestätige, dass alle Metadaten erfasst wurden, indem du die Funktion
meta()beim ersten Dokument mit einfachen eckigen Klammern verwendest.
Denk daran: Beim Zugriff auf Teile eines Korpus machen doppelte oder einfache Klammern einen Unterschied! In dieser Übung verwendest du doppelte Klammern mit content() und einfache Klammern mit meta().
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Rename columns
___(tweets)[1] <- "___"
# Set the schema: docs
docs <- ___(___)
# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))
# Examine the first doc content
___(text_corpus[[___]])
# Access the first doc metadata
___(text_corpus[___])