LoslegenKostenlos loslegen

Etwas Text laden

Text Mining beginnt damit, Textdaten in R zu laden. Das machen wir mit der Funktion read.csv().

Als gute Praxis solltest du dir das eingelesene Objekt ansehen, um zu prüfen, welche Spalte(n) wichtig sind. Die Funktion str() ist dafür ein effizienter Weg.

Wenn der Data Frame Spalten enthält, die kein Text sind, kannst du ein neues Objekt erstellen, das nur die richtige Textspalte enthält (z. B. some_object$column_name).

Beachte, dass dies echte Daten von Twitter sind. Es besteht daher immer das Risiko, dass sie Obszönitäten oder andere anstößige Inhalte enthalten (in dieser Übung und in allen folgenden Übungen, die ebenfalls echte Twitter-Daten verwenden).

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

Die Daten wurden bereits für dich geladen und stehen in coffee_data_file bereit.

  • Erstelle ein neues Objekt tweets, indem du read.csv() auf die Datei coffee_data_file anwendest. Diese enthält Tweets, in denen Kaffee erwähnt wird.
  • Untersuche das Objekt tweets mit str(), um festzustellen, in welcher Spalte der Text steht, den du analysieren möchtest.
  • Erstelle ein neues Objekt coffee_tweets, das nur die zuvor identifizierte Textspalte enthält. Verwende dazu den $-Operator und den Spaltennamen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import text data from CSV, no factors
tweets <- ___

# View the structure of tweets
___

# Isolate text from tweets
coffee_tweets <- ___
Code bearbeiten und ausführen