ComeçarComece de graça

Remover stop words e espaços extras

Um corpus de texto geralmente contém muitas palavras comuns como "a", "an", "the", "of" e "but". Em Processamento de Linguagem Natural, elas são chamadas de stop words.

Normalmente, as stop words são removidas durante o processamento de texto para que você possa focar em palavras mais importantes do corpus e extrair insights.

Além disso, os espaços extras criados durante a remoção de caracteres especiais, pontuação, números e stop words precisam ser removidos do corpus.

O corpus que você criou no exercício anterior já foi carregado como twt_corpus_lwr.

A biblioteca tm já foi carregada para este exercício.

Este exercício faz parte do curso

Analisando dados de mídias sociais em R

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Remove English stop words from the corpus and view the corpus 
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)
Editar e executar o código