Erstelle ein VCorpus aus einem Data Frame
Wenn sich deine Textdaten in einem Data Frame befinden, kannst du für die Analyse DataframeSource() verwenden. Der an DataframeSource() übergebene Data Frame muss eine bestimmte Struktur haben:
- Spalte eins muss
doc_idheißen und für jede Zeile eine eindeutige Zeichenkette enthalten. - Spalte zwei muss
textheißen und in „UTF-8“-Kodierung vorliegen (ziemlich standardmäßig). - Alle weiteren Spalten, 3+, gelten als Metadaten und werden als solche beibehalten.
In dieser Übung lernst du meta() kennen, um die Metadaten zu jedem Dokument zu extrahieren. Häufig enthalten deine Daten Metadaten wie Autor:innen, Daten, Themen-Tags oder Orte, die deine Analyse unterstützen können. Sobald dein Text ein Korpus ist, kannst du meta() anwenden, um die zusätzlichen Informationen auf Dokumentebene zu untersuchen.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
In deinem Workspace gibt es einen einfachen Data Frame namens example_text mit den richtigen Spaltennamen und einigen Metadaten. Außerdem gibt es vec_corpus, ein flüchtiges Korpus, das mit VectorSource() erstellt wurde.
- Erstelle
df_sourcemitDataframeSource()ausexample_text. - Erstelle
df_corpus, indem dudf_sourcemitVCorpus()in ein flüchtiges Korpusobjekt umwandelst. - Gib
df_corpusaus. Achte darauf, wie viele Dokumente es enthält und wie viele Metadatenpunkte auf Dokumentebene beibehalten wurden. - Verwende
meta()aufdf_corpus, um die dokumentbezogenen Metadaten auszugeben. - Untersuche das vorab geladene Objekt
vec_corpus. Vergleiche die Anzahl der Dokumente mitdf_corpus. - Verwende
meta()aufvec_corpus, um die gefundenen Metadaten zwischenvec_corpusunddf_corpuszu vergleichen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a DataframeSource from the example text
df_source <- ___
# Convert df_source to a volatile corpus
df_corpus <- ___
# Examine df_corpus
df_corpus
# Examine df_corpus metadata
___
# Compare the number of documents in the vector source
vec_corpus
# Compare metadata in the vector corpus
___