Tokenisieren und zählen
Erkunde den Inhalt der Airline-Tweets in twitter_data anhand von Worthäufigkeiten. Der Inhalt jedes Tweets steht in der Spalte tweet_text.
Diese Übung ist Teil des Kurses
Einführung in die Textanalyse mit R
Anleitung zur Übung
- Lade die Pakete tidyverse und tidytext.
- Tokenisiere die Tweets in der Spalte
tweet_text. - Berechne Worthäufigkeiten mit dem tokenisierten Text.
- Sortiere die Zählungen in absteigender Reihenfolge.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the tidyverse and tidytext packages
___(___)
___(___)
tidy_twitter <- twitter_data %>%
# Tokenize the twitter data
___(word, ___)
tidy_twitter %>%
# Compute word counts
___(___) %>%
# Arrange the counts in descending order
___(___)