Limpeza e contagem
Remova stop words para explorar o conteúdo apenas dos tweets de companhias aéreas classificados como reclamações em twitter_data.
Este exercício faz parte do curso
Introdução à Análise de Texto em R
Instruções do exercício
- Tokenize os tweets em
twitter_data. Dê à coluna com as palavras tokenizadas o nomeword. - Remova as stop words padrão do
twitter_datatokenizado. - Filtre para manter apenas as reclamações.
- Calcule as contagens de palavras usando o texto tokenizado e limpo e ordene em ordem decrescente pela contagem.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
tidy_twitter <- twitter_data %>%
# Tokenize the twitter data
___(___, ___) %>%
# Remove stop words
anti_join(stop_words)
tidy_twitter %>%
# Filter to keep complaints only
___(___ == ___) %>%
# Compute word counts and arrange in descending order
___(___) %>%
___(___)