Den Vektor in ein VCorpus-Objekt umwandeln (2)

Jetzt, da wir unseren Vektor in ein Source-Objekt umgewandelt haben, übergeben wir ihn an eine weitere tm-Funktion, VCorpus(), um unser flüchtiges Korpus zu erstellen. Ziemlich geradlinig, oder?

Das VCorpus-Objekt ist eine verschachtelte Liste bzw. eine Liste von Listen. An jedem Index des VCorpus-Objekts befindet sich ein PlainTextDocument-Objekt. Das ist eine Liste, die die eigentlichen Textdaten (content) und einige zugehörige Metadaten (meta) enthält. Es kann helfen, sich ein VCorpus-Objekt zu veranschaulichen, um das Ganze besser zu begreifen.

Um ein einzelnes Dokumentobjekt (das 10.) anzusehen, subsettest du mit doppelten eckigen Klammern.

coffee_corpus[[10]]

Um den eigentlichen Text anzusehen, indizierst du die Liste zweimal. Um auf die Metadaten des Dokuments, z. B. den Zeitstempel, zuzugreifen, änderst du [1] zu [2]. Eine andere Möglichkeit, den reinen Text zu prüfen, ist die Funktion content(), die kein zweites Klammerpaar benötigt.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Rufe die Funktion VCorpus() mit dem Objekt coffee_source auf, um coffee_corpus zu erstellen.
Überprüfe, dass coffee_corpus ein VCorpus-Objekt ist, indem du es in der Konsole ausgibst.
Gib das 15. Element von coffee_corpus in der Konsole aus, um zu prüfen, dass es sich um ein PlainTextDocument handelt, das den Inhalt und die Metadaten des 15. Tweets enthält. Verwende doppeltes Klammer-Subsetting.
Gib den Inhalt des 15. Tweets in coffee_corpus aus. Verwende doppelte Klammern, um den richtigen Tweet zu wählen, gefolgt von einfachen Klammern, um den Inhalt dieses Tweets zu extrahieren.
Gib den content() des 10. Tweets innerhalb von coffee_corpus aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

## coffee_source is already in your workspace

# Make a volatile corpus from coffee_source
coffee_corpus <- ___

# Print out coffee_corpus
___

# Print the 15th tweet in coffee_corpus
___

# Print the contents of the 15th tweet in coffee_corpus
___

# Now use content to review the plain text of the 10th tweet
___(___[[___]])

Code bearbeiten und ausführen