Um gostinho rápido de mineração de texto

Às vezes, dá para descobrir a intenção do autor e as ideias principais apenas observando as palavras mais comuns.

No essencial, a mineração de texto com bag-of-words é uma forma de contar termos, ou n-grams, em uma coleção de documentos. Considere as frases a seguir, que salvamos em text e deixamos disponíveis no seu workspace:

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

Contar manualmente as palavras nas frases acima é trabalhoso! Felizmente, o pacote qdap oferece uma alternativa melhor. Você pode encontrar facilmente os 4 termos mais frequentes (incluindo empates) em text chamando a função freq_terms e especificando 4.

frequent_terms <- freq_terms(text, 4)

O objeto frequent_terms armazena todas as palavras únicas e suas contagens. Em seguida, você pode criar um gráfico de barras simplesmente chamando a função plot no objeto frequent_terms.

plot(frequent_terms)

Este exercicio faz parte do curso

Mineração de Texto com Bag-of-Words em R

Ver curso

Instruções do exercicio

Criamos um objeto no seu workspace chamado new_text contendo várias frases.

Carregue o pacote qdap.
Imprima new_text no console.
Crie term_count com os 10 termos mais frequentes em new_text.
Faça um gráfico de barras com os resultados de term_count.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Load qdap
___

# Print new_text to the console
new_text

# Find the 10 most frequent terms: term_count
term_count <- ___

# Plot term_count
___

Editar e Executar Código