Etwas Text laden
Text Mining beginnt damit, Textdaten in R zu laden. Das machen wir mit der Funktion read.csv().
Als gute Praxis solltest du dir das eingelesene Objekt ansehen, um zu prüfen, welche Spalte(n) wichtig sind. Die Funktion str() ist dafür ein effizienter Weg.
Wenn der Data Frame Spalten enthält, die kein Text sind, kannst du ein neues Objekt erstellen, das nur die richtige Textspalte enthält (z. B. some_object$column_name).
Beachte, dass dies echte Daten von Twitter sind. Es besteht daher immer das Risiko, dass sie Obszönitäten oder andere anstößige Inhalte enthalten (in dieser Übung und in allen folgenden Übungen, die ebenfalls echte Twitter-Daten verwenden).
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
Die Daten wurden bereits für dich geladen und stehen in coffee_data_file bereit.
- Erstelle ein neues Objekt
tweets, indem duread.csv()auf die Dateicoffee_data_fileanwendest. Diese enthält Tweets, in denen Kaffee erwähnt wird. - Untersuche das Objekt
tweetsmitstr(), um festzustellen, in welcher Spalte der Text steht, den du analysieren möchtest. - Erstelle ein neues Objekt
coffee_tweets, das nur die zuvor identifizierte Textspalte enthält. Verwende dazu den$-Operator und den Spaltennamen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import text data from CSV, no factors
tweets <- ___
# View the structure of tweets
___
# Isolate text from tweets
coffee_tweets <- ___