Um gostinho rápido de mineração de texto
Às vezes, dá para descobrir a intenção do autor e as ideias principais apenas observando as palavras mais comuns.
No essencial, a mineração de texto com bag-of-words é uma forma de contar termos, ou n-grams, em uma coleção de documentos. Considere as frases a seguir, que salvamos em text e deixamos disponíveis no seu workspace:
text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."
Contar manualmente as palavras nas frases acima é trabalhoso! Felizmente, o pacote qdap oferece uma alternativa melhor. Você pode encontrar facilmente os 4 termos mais frequentes (incluindo empates) em text chamando a função freq_terms e especificando 4.
frequent_terms <- freq_terms(text, 4)
O objeto frequent_terms armazena todas as palavras únicas e suas contagens. Em seguida, você pode criar um gráfico de barras simplesmente chamando a função plot no objeto frequent_terms.
plot(frequent_terms)
Este exercício faz parte do curso
Mineração de Texto com Bag-of-Words em R
Instruções do exercício
Criamos um objeto no seu workspace chamado new_text contendo várias frases.
- Carregue o pacote
qdap. - Imprima
new_textno console. - Crie
term_countcom os 10 termos mais frequentes emnew_text. - Faça um gráfico de barras com os resultados de
term_count.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load qdap
___
# Print new_text to the console
new_text
# Find the 10 most frequent terms: term_count
term_count <- ___
# Plot term_count
___