ComeçarComece de graça

Tudo sobre stop words

Muitas vezes há palavras que são frequentes, mas trazem pouca informação. Elas são chamadas de stop words, e você pode querer removê-las da sua análise. Algumas stop words comuns em inglês incluem "I", "she'll", "the", etc. No pacote tm, há 174 stop words comuns em inglês (você vai imprimi-las neste exercício!)

Ao fazer uma análise, é provável que você precise adicionar palavras a essa lista. No nosso exemplo de tweets sobre café, todos os tweets contêm "coffee", então é importante retirar essa palavra além das stop words comuns. Deixar "coffee" não acrescenta nenhum insight e ainda fará com que ela seja superenfatizada em uma análise de frequência.

Usar a função c() permite adicionar novas palavras à lista de stop words. Por exemplo, o seguinte adicionaria "word1" e "word2" à lista padrão de stop words em inglês:

all_stops <- c("word1", "word2", stopwords("en"))

Quando você tiver uma lista de stop words que faça sentido, use a função removeWords() no seu texto. removeWords() recebe dois argumentos: o objeto text ao qual será aplicada e a lista de palavras a remover.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

  • Revise as stop words padrão chamando stopwords("en").
  • Remova as stopwords "en" de text.
  • Adicione "coffee" e "bean" às stop words padrão, atribuindo a new_stops.
  • Remova as stopwords personalizadas, new_stops, de text.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

## text is preloaded into your workspace

# List standard English stop words
___

# Print text without standard stop words
removeWords(___, ___("___"))

# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)

# Remove stop words from text
___
Editar e executar o código