Bereinigen und Zählen
Entferne Stoppwörter, um den Inhalt nur der in twitter_data als Beschwerden klassifizierten Airline-Tweets zu untersuchen.
Diese Übung ist Teil des Kurses
Einführung in die Textanalyse mit R
Anleitung zur Übung
- Tokenisiere die Tweets in
twitter_data. Benenne die Spalte mit den tokenisierten Wörternword. - Entferne die Standard-Stoppwörter aus dem tokenisierten
twitter_data. - Filtere so, dass nur die Beschwerden übrig bleiben.
- Berechne Wortzählungen mit dem tokenisierten, bereinigten Text und sortiere absteigend nach der Häufigkeit.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
tidy_twitter <- twitter_data %>%
# Tokenize the twitter data
___(___, ___) %>%
# Remove stop words
anti_join(stop_words)
tidy_twitter %>%
# Filter to keep complaints only
___(___ == ___) %>%
# Compute word counts and arrange in descending order
___(___) %>%
___(___)