LoslegenKostenlos loslegen

Den Vektor in ein VCorpus-Objekt umwandeln (2)

Jetzt, da wir unseren Vektor in ein Source-Objekt umgewandelt haben, übergeben wir ihn an eine weitere tm-Funktion, VCorpus(), um unser flüchtiges Korpus zu erstellen. Ziemlich geradlinig, oder?

Das VCorpus-Objekt ist eine verschachtelte Liste bzw. eine Liste von Listen. An jedem Index des VCorpus-Objekts befindet sich ein PlainTextDocument-Objekt. Das ist eine Liste, die die eigentlichen Textdaten (content) und einige zugehörige Metadaten (meta) enthält. Es kann helfen, sich ein VCorpus-Objekt zu veranschaulichen, um das Ganze besser zu begreifen.

Um ein einzelnes Dokumentobjekt (das 10.) anzusehen, subsettest du mit doppelten eckigen Klammern.

coffee_corpus[[10]]

Um den eigentlichen Text anzusehen, indizierst du die Liste zweimal. Um auf die Metadaten des Dokuments, z. B. den Zeitstempel, zuzugreifen, änderst du [1] zu [2]. Eine andere Möglichkeit, den reinen Text zu prüfen, ist die Funktion content(), die kein zweites Klammerpaar benötigt.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

  • Rufe die Funktion VCorpus() mit dem Objekt coffee_source auf, um coffee_corpus zu erstellen.
  • Überprüfe, dass coffee_corpus ein VCorpus-Objekt ist, indem du es in der Konsole ausgibst.
  • Gib das 15. Element von coffee_corpus in der Konsole aus, um zu prüfen, dass es sich um ein PlainTextDocument handelt, das den Inhalt und die Metadaten des 15. Tweets enthält. Verwende doppeltes Klammer-Subsetting.
  • Gib den Inhalt des 15. Tweets in coffee_corpus aus. Verwende doppelte Klammern, um den richtigen Tweet zu wählen, gefolgt von einfachen Klammern, um den Inhalt dieses Tweets zu extrahieren.
  • Gib den content() des 10. Tweets innerhalb von coffee_corpus aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

## coffee_source is already in your workspace

# Make a volatile corpus from coffee_source
coffee_corpus <- ___

# Print out coffee_corpus
___

# Print the 15th tweet in coffee_corpus
___

# Print the contents of the 15th tweet in coffee_corpus
___

# Now use content to review the plain text of the 10th tweet
___(___[[___]])
Code bearbeiten und ausführen