Metadaten in tm erfassen

Je nach Ziel kann es sinnvoll sein, beim Erstellen eines Korpus Metadaten zum Dokument beizubehalten.

Um Metadaten auf Dokumentebene zu erfassen, müssen die Spaltennamen und ihre Reihenfolge wie folgt sein:

doc_id – eine eindeutige Zeichenkette für jedes Dokument
text – der zu untersuchende Text
... – alle weiteren Spalten werden automatisch als Metadaten erfasst.

Manchmal musst du Spalten umbenennen, um die Erwartungen von DataframeSource() zu erfüllen. Die Funktion names() ist dafür hilfreich.

tweets liegt in deinem Workspace als Data Frame mit den Spalten „num“, „text“, „screenName“ und „created“ vor.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Benenne die erste Spalte von tweets in "doc_id" um.
Setze das Dokumentenschema mit DataframeSource() auf dem kleineren tweets-Data-Frame.
Mach die Dokumentensammlung zu einem flüchtigen Korpus, verschachtelt in der benutzerdefinierten Funktion clean_corpus().
Wende content() auf den ersten Tweet mit doppelten eckigen Klammern wie text_corpus[[1]] an, um den bereinigten Plaintext zu sehen.
Bestätige, dass alle Metadaten erfasst wurden, indem du die Funktion meta() beim ersten Dokument mit einfachen eckigen Klammern verwendest.

Denk daran: Beim Zugriff auf Teile eines Korpus machen doppelte oder einfache Klammern einen Unterschied! In dieser Übung verwendest du doppelte Klammern mit content() und einfache Klammern mit meta().

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])

Code bearbeiten und ausführen