Den Vektor in ein VCorpus-Objekt umwandeln (2)
Jetzt, da wir unseren Vektor in ein Source-Objekt umgewandelt haben, übergeben wir ihn an eine weitere tm-Funktion, VCorpus(), um unser flüchtiges Korpus zu erstellen. Ziemlich geradlinig, oder?
Das VCorpus-Objekt ist eine verschachtelte Liste bzw. eine Liste von Listen. An jedem Index des VCorpus-Objekts befindet sich ein PlainTextDocument-Objekt. Das ist eine Liste, die die eigentlichen Textdaten (content) und einige zugehörige Metadaten (meta) enthält. Es kann helfen, sich ein VCorpus-Objekt zu veranschaulichen, um das Ganze besser zu begreifen.
Um ein einzelnes Dokumentobjekt (das 10.) anzusehen, subsettest du mit doppelten eckigen Klammern.
coffee_corpus[[10]]
Um den eigentlichen Text anzusehen, indizierst du die Liste zweimal. Um auf die Metadaten des Dokuments, z. B. den Zeitstempel, zuzugreifen, änderst du [1] zu [2]. Eine andere Möglichkeit, den reinen Text zu prüfen, ist die Funktion content(), die kein zweites Klammerpaar benötigt.
coffee_corpus[[10]][1]
content(coffee_corpus[[10]])
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Rufe die Funktion
VCorpus()mit dem Objektcoffee_sourceauf, umcoffee_corpuszu erstellen. - Überprüfe, dass
coffee_corpuseinVCorpus-Objekt ist, indem du es in der Konsole ausgibst. - Gib das 15. Element von
coffee_corpusin der Konsole aus, um zu prüfen, dass es sich um einPlainTextDocumenthandelt, das den Inhalt und die Metadaten des 15. Tweets enthält. Verwende doppeltes Klammer-Subsetting. - Gib den Inhalt des 15. Tweets in
coffee_corpusaus. Verwende doppelte Klammern, um den richtigen Tweet zu wählen, gefolgt von einfachen Klammern, um den Inhalt dieses Tweets zu extrahieren. - Gib den
content()des 10. Tweets innerhalb voncoffee_corpusaus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
## coffee_source is already in your workspace
# Make a volatile corpus from coffee_source
coffee_corpus <- ___
# Print out coffee_corpus
___
# Print the 15th tweet in coffee_corpus
___
# Print the contents of the 15th tweet in coffee_corpus
___
# Now use content to review the plain text of the 10th tweet
___(___[[___]])