Remover stop words e espaços extras
Um corpus de texto geralmente contém muitas palavras comuns como "a", "an", "the", "of" e "but". Em Processamento de Linguagem Natural, elas são chamadas de stop words.
Normalmente, as stop words são removidas durante o processamento de texto para que você possa focar em palavras mais importantes do corpus e extrair insights.
Além disso, os espaços extras criados durante a remoção de caracteres especiais, pontuação, números e stop words precisam ser removidos do corpus.
O corpus que você criou no exercício anterior já foi carregado como twt_corpus_lwr.
A biblioteca tm já foi carregada para este exercício.
Este exercício faz parte do curso
Analisando dados de mídias sociais em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Remove English stop words from the corpus and view the corpus
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)