Tudo sobre stop words
Muitas vezes há palavras que são frequentes, mas trazem pouca informação. Elas são chamadas de stop words, e você pode querer removê-las da sua análise. Algumas stop words comuns em inglês incluem "I", "she'll", "the", etc. No pacote tm, há 174 stop words comuns em inglês (você vai imprimi-las neste exercício!)
Ao fazer uma análise, é provável que você precise adicionar palavras a essa lista. No nosso exemplo de tweets sobre café, todos os tweets contêm "coffee", então é importante retirar essa palavra além das stop words comuns. Deixar "coffee" não acrescenta nenhum insight e ainda fará com que ela seja superenfatizada em uma análise de frequência.
Usar a função c() permite adicionar novas palavras à lista de stop words. Por exemplo, o seguinte adicionaria "word1" e "word2" à lista padrão de stop words em inglês:
all_stops <- c("word1", "word2", stopwords("en"))
Quando você tiver uma lista de stop words que faça sentido, use a função removeWords() no seu texto. removeWords() recebe dois argumentos: o objeto text ao qual será aplicada e a lista de palavras a remover.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Revise as stop words padrão chamando
stopwords("en"). - Remova as stopwords "en" de
text. - Adicione "coffee" e "bean" às stop words padrão, atribuindo a
new_stops. - Remova as stopwords personalizadas,
new_stops, detext.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
## text is preloaded into your workspace
# List standard English stop words
___
# Print text without standard stop words
removeWords(___, ___("___"))
# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)
# Remove stop words from text
___