Comece agoraComece grátis

Um exemplo de falha na análise de texto

No início, você discutiu a importância de remover stopwords antes de realizar a análise de texto. Neste capítulo mais recente, você revisou o uso de similaridade do cosseno para identificar textos que são semelhantes entre si.

Neste exercício, você vai explorar a possibilidade bem real de não usar a análise de texto corretamente. Você vai calcular similaridades do cosseno para os capítulos do livro Animal Farm, sem remover as stopwords.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercicio

  • Revise o código fornecido para criar contagens de palavras. Isso já foi feito para você.
  • Usando a função pairwise_similarity() do widyr, calcule as similaridades do cosseno para cada capítulo na coluna chapter.
  • Organize os resultados com os maiores valores de similarity primeiro.
  • Calcule a média (mean) dos valores de similarity.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create word counts
animal_farm_counts <- animal_farm %>%
  unnest_tokens(word, text_column) %>%
  count(chapter, word)

# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
  ___(___, ___, n) %>%
  arrange(desc(___))

# Print the mean of the similarity values
comparisons %>%
  summarize(mean = ___(___))
Editar e Executar Código