Tokenisieren und zählen
Erkunde den Inhalt der Airline-Tweets in twitter_data anhand von Worthäufigkeiten. Der Inhalt jedes Tweets steht in der Spalte tweet_text.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in die Textanalyse mit R</Kurs>Übungsanweisungen
- Lade die Pakete tidyverse und tidytext.
- Tokenisiere die Tweets in der Spalte
tweet_text. - Berechne Worthäufigkeiten mit dem tokenisierten Text.
- Sortiere die Zählungen in absteigender Reihenfolge.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load the tidyverse and tidytext packages
___(___)
___(___)
tidy_twitter <- twitter_data %>%
# Tokenize the twitter data
___(word, ___)
tidy_twitter %>%
# Compute word counts
___(___) %>%
# Arrange the counts in descending order
___(___)