ComeçarComece de graça

Um exemplo de falha na análise de texto

No início, você discutiu a importância de remover stopwords antes de realizar a análise de texto. Neste capítulo mais recente, você revisou o uso de similaridade do cosseno para identificar textos que são semelhantes entre si.

Neste exercício, você vai explorar a possibilidade bem real de não usar a análise de texto corretamente. Você vai calcular similaridades do cosseno para os capítulos do livro Animal Farm, sem remover as stopwords.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercício

  • Revise o código fornecido para criar contagens de palavras. Isso já foi feito para você.
  • Usando a função pairwise_similarity() do widyr, calcule as similaridades do cosseno para cada capítulo na coluna chapter.
  • Organize os resultados com os maiores valores de similarity primeiro.
  • Calcule a média (mean) dos valores de similarity.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create word counts
animal_farm_counts <- animal_farm %>%
  unnest_tokens(word, text_column) %>%
  count(chapter, word)

# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
  ___(___, ___, n) %>%
  arrange(desc(___))

# Print the mean of the similarity values
comparisons %>%
  summarize(mean = ___(___))
Editar e executar o código