Stop words e nuvens de palavras

Agora que você já está no clima de text mining, relaxando com uma taça de chardonnay, vamos aprofundar. Na última nuvem de palavras, "chardonnay" dominou o visual. Foi tão dominante que não deu para extrair outros insights interessantes.

Vamos alterar as stop words para incluir "chardonnay" e ver que outras palavras são comuns, mas antes ficavam ofuscadas.

Seu ambiente tem uma versão limpa dos tweets sobre chardonnay, e agora vamos remover alguns termos pouco informativos. Este exercício usa content() para mostrar um tweet específico para comparação. Lembre-se de usar colchetes duplos para indexar a lista do corpus.

Este exercício faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercício

Aplique content() ao 24º documento em chardonnay_corp.
Adicione "chardonnay" às stopwords em inglês, atribuindo a stops.
Examine as últimas seis palavras em stops.
Crie cleaned_chardonnay_corp com tm_map() passando chardonnay_corp, a função removeWords() e, por fim, as stopwords stops.
Agora examine o content do tweet 24 novamente para comparar os resultados.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Review a "cleaned" tweet
___(___)

# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')

# Review last 6 stopwords 
tail(stops)

# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)

# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])

Editar e executar o código