Stop words e nuvens de palavras
Agora que você já está no clima de text mining, relaxando com uma taça de chardonnay, vamos aprofundar. Na última nuvem de palavras, "chardonnay" dominou o visual. Foi tão dominante que não deu para extrair outros insights interessantes.
Vamos alterar as stop words para incluir "chardonnay" e ver que outras palavras são comuns, mas antes ficavam ofuscadas.
Seu ambiente tem uma versão limpa dos tweets sobre chardonnay, e agora vamos remover alguns termos pouco informativos. Este exercício usa content() para mostrar um tweet específico para comparação. Lembre-se de usar colchetes duplos para indexar a lista do corpus.
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
- Aplique
content()ao 24º documento emchardonnay_corp. - Adicione
"chardonnay"às stopwords em inglês, atribuindo astops. - Examine as últimas seis palavras em
stops. - Crie
cleaned_chardonnay_corpcomtm_map()passandochardonnay_corp, a funçãoremoveWords()e, por fim, as stopwordsstops. - Agora examine o
contentdo tweet24novamente para comparar os resultados.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Review a "cleaned" tweet
___(___)
# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')
# Review last 6 stopwords
tail(stops)
# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)
# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])