LoslegenKostenlos loslegen

Bereinigen und Zählen

Entferne Stoppwörter, um den Inhalt nur der in twitter_data als Beschwerden klassifizierten Airline-Tweets zu untersuchen.

Diese Übung ist Teil des Kurses

Einführung in die Textanalyse mit R

Kurs anzeigen

Anleitung zur Übung

  • Tokenisiere die Tweets in twitter_data. Benenne die Spalte mit den tokenisierten Wörtern word.
  • Entferne die Standard-Stoppwörter aus dem tokenisierten twitter_data.
  • Filtere so, dass nur die Beschwerden übrig bleiben.
  • Berechne Wortzählungen mit dem tokenisierten, bereinigten Text und sortiere absteigend nach der Häufigkeit.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

tidy_twitter <- twitter_data %>% 
  # Tokenize the twitter data
  ___(___, ___) %>% 
  # Remove stop words
  anti_join(stop_words)

tidy_twitter %>% 
  # Filter to keep complaints only
  ___(___ == ___) %>% 
  # Compute word counts and arrange in descending order
  ___(___) %>% 
  ___(___)
Code bearbeiten und ausführen