Um exemplo de falha na análise de texto
No início, você discutiu a importância de remover stopwords antes de realizar a análise de texto. Neste capítulo mais recente, você revisou o uso de similaridade do cosseno para identificar textos que são semelhantes entre si.
Neste exercício, você vai explorar a possibilidade bem real de não usar a análise de texto corretamente. Você vai calcular similaridades do cosseno para os capítulos do livro Animal Farm, sem remover as stopwords.
Este exercicio faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercicio
- Revise o código fornecido para criar contagens de palavras. Isso já foi feito para você.
- Usando a função
pairwise_similarity()dowidyr, calcule as similaridades do cosseno para cada capítulo na colunachapter. - Organize os resultados com os maiores valores de
similarityprimeiro. - Calcule a média (
mean) dos valores desimilarity.
exercicio interativo prático
Tente este exercicio completando este código de exemplo.
# Create word counts
animal_farm_counts <- animal_farm %>%
unnest_tokens(word, text_column) %>%
count(chapter, word)
# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
___(___, ___, n) %>%
arrange(desc(___))
# Print the mean of the similarity values
comparisons %>%
summarize(mean = ___(___))