Um exemplo de falha na análise de texto
No início, você discutiu a importância de remover stopwords antes de realizar a análise de texto. Neste capítulo mais recente, você revisou o uso de similaridade do cosseno para identificar textos que são semelhantes entre si.
Neste exercício, você vai explorar a possibilidade bem real de não usar a análise de texto corretamente. Você vai calcular similaridades do cosseno para os capítulos do livro Animal Farm, sem remover as stopwords.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercício
- Revise o código fornecido para criar contagens de palavras. Isso já foi feito para você.
- Usando a função
pairwise_similarity()dowidyr, calcule as similaridades do cosseno para cada capítulo na colunachapter. - Organize os resultados com os maiores valores de
similarityprimeiro. - Calcule a média (
mean) dos valores desimilarity.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create word counts
animal_farm_counts <- animal_farm %>%
unnest_tokens(word, text_column) %>%
count(chapter, word)
# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
___(___, ___, n) %>%
arrange(desc(___))
# Print the mean of the similarity values
comparisons %>%
summarize(mean = ___(___))