LoslegenKostenlos loslegen

Mach aus dem Vektor ein VCorpus-Objekt (1)

Erinnere dich: In der letzten Übung hast du deine Textdaten als Vektor coffee_tweets geladen. Als Nächstes wandelst du diesen Vektor mit den Textdaten in ein Korpus um. Wie du im Video gelernt hast, ist ein Korpus eine Sammlung von Dokumenten. Wichtig ist außerdem: Im tm-Bereich erkennt R es als eigenen Datentyp.

Vom Korpus-Datentyp gibt es zwei Arten: das permanent corpus, PCorpus, und das volatile corpus, VCorpus. Im Kern unterscheidet sie, wie die Dokumentensammlung auf deinem Computer gespeichert wird. In diesem Kurs verwenden wir das volatile corpus, das im RAM deines Computers gehalten und nicht auf der Festplatte gespeichert wird – das ist speichereffizienter.

Um ein volatile corpus zu erstellen, muss R jedes Element in unserem Textvektor coffee_tweets als Dokument interpretieren. Das Paket tm stellt dafür sogenannte Source-Funktionen bereit. In dieser Übung verwenden wir die Source-Funktion VectorSource(), weil unsere Textdaten in einem Vektor vorliegen. Die Ausgabe dieser Funktion heißt Source-Objekt. Probier es aus!

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

  • Lade das Paket tm.
  • Erstelle aus dem Vektor coffee_tweets ein Source-Objekt. Nenne dieses neue Objekt coffee_source.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load tm
___

# Make a vector source from coffee_tweets
___
Code bearbeiten und ausführen