Erstelle ein VCorpus aus einem Data Frame

Wenn sich deine Textdaten in einem Data Frame befinden, kannst du für die Analyse DataframeSource() verwenden. Der an DataframeSource() übergebene Data Frame muss eine bestimmte Struktur haben:

Spalte eins muss doc_id heißen und für jede Zeile eine eindeutige Zeichenkette enthalten.
Spalte zwei muss text heißen und in „UTF-8“-Kodierung vorliegen (ziemlich standardmäßig).
Alle weiteren Spalten, 3+, gelten als Metadaten und werden als solche beibehalten.

In dieser Übung lernst du meta() kennen, um die Metadaten zu jedem Dokument zu extrahieren. Häufig enthalten deine Daten Metadaten wie Autor:innen, Daten, Themen-Tags oder Orte, die deine Analyse unterstützen können. Sobald dein Text ein Korpus ist, kannst du meta() anwenden, um die zusätzlichen Informationen auf Dokumentebene zu untersuchen.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

In deinem Workspace gibt es einen einfachen Data Frame namens example_text mit den richtigen Spaltennamen und einigen Metadaten. Außerdem gibt es vec_corpus, ein flüchtiges Korpus, das mit VectorSource() erstellt wurde.

Erstelle df_source mit DataframeSource() aus example_text.
Erstelle df_corpus, indem du df_source mit VCorpus() in ein flüchtiges Korpusobjekt umwandelst.
Gib df_corpus aus. Achte darauf, wie viele Dokumente es enthält und wie viele Metadatenpunkte auf Dokumentebene beibehalten wurden.
Verwende meta() auf df_corpus, um die dokumentbezogenen Metadaten auszugeben.
Untersuche das vorab geladene Objekt vec_corpus. Vergleiche die Anzahl der Dokumente mit df_corpus.
Verwende meta() auf vec_corpus, um die gefundenen Metadaten zwischen vec_corpus und df_corpus zu vergleichen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a DataframeSource from the example text
df_source <- ___

# Convert df_source to a volatile corpus
df_corpus <- ___

# Examine df_corpus
df_corpus

# Examine df_corpus metadata
___

# Compare the number of documents in the vector source
vec_corpus

# Compare metadata in the vector corpus
___

Code bearbeiten und ausführen