Opschonen en tellen
Verwijder stopwoorden om alleen de inhoud te verkennen van de airline-tweets die in twitter_data als klachten zijn geclassificeerd.
Deze oefening maakt deel uit van de cursus
Introductie tot tekstanalyse in R
Oefeninstructies
- Tokenize de tweets in
twitter_data. Noem de kolom met getokenizde woordenword. - Verwijder de standaard stopwoorden uit de getokenizde
twitter_data. - Filter zodat je alleen de klachten overhoudt.
- Bereken woordfrequenties met de getokenizde, opgeschoonde tekst en sorteer aflopend op de telling.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
tidy_twitter <- twitter_data %>%
# Tokenize the twitter data
___(___, ___) %>%
# Remove stop words
anti_join(stop_words)
tidy_twitter %>%
# Filter to keep complaints only
___(___ == ___) %>%
# Compute word counts and arrange in descending order
___(___) %>%
___(___)