Prática de TFIDF

Antes, você analisou uma representação de saco de palavras (bag-of-words) de artigos sobre petróleo bruto. O cálculo dos valores de TFIDF usa essa representação, mas leva em conta com que frequência uma palavra aparece em um artigo e com que frequência essa palavra aparece no conjunto de artigos.

Para entender o quanto as palavras são significativas ao comparar diferentes artigos, calcule os pesos de TFIDF das palavras em crude, uma coleção de 20 artigos sobre petróleo bruto.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercicio

Calcule os valores de TFIDF para crude por article_id e por word. Salve o tibble resultante como crude_weights.
Ordene crude_weights com a função arrange() por valores de tf_idf em ordem decrescente.
Filtre crude_weights para os menores valores de tf_idf diferentes de zero. Novamente, use a função arrange.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)

Editar e Executar Código

Introdução ao Processamento de Linguagem Natural em R

IntermediárioNível de habilidade

4.8+

40 reviews

No Capítulo 4, cobrimos dois pilares do processamento de linguagem natural: análise de sentimentos e word embeddings. Essas são duas técnicas essenciais para quem está aprendendo os fundamentos de análise de texto. Além disso, você vai aprender brevemente sobre BERT, marcação de classe gramatical (part-of-speech tagging) e reconhecimento de entidades nomeadas. Quase 15 técnicas de análise diferentes foram abordadas neste curso, então o Capítulo 4 termina recapitulando todas as ótimas técnicas que você conhecerá aqui.

Exercise 1: Análise de sentimento Exercise 2: lexicons do tidytext Exercise 3: Scores de sentimento Exercise 4: Sentimento e emoção Exercise 5: Word embeddings Exercise 6: Prática com h2o Exercise 7: word2vec Exercise 8: Análises adicionais de NLP Exercise 9: Revisando métodos #1 Exercise 10: Revisão de métodos #2 Exercise 11: Conclusão