ComeçarComece de graça

Prática de TFIDF

Antes, você analisou uma representação de saco de palavras (bag-of-words) de artigos sobre petróleo bruto. O cálculo dos valores de TFIDF usa essa representação, mas leva em conta com que frequência uma palavra aparece em um artigo e com que frequência essa palavra aparece no conjunto de artigos.

Para entender o quanto as palavras são significativas ao comparar diferentes artigos, calcule os pesos de TFIDF das palavras em crude, uma coleção de 20 artigos sobre petróleo bruto.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercício

  • Calcule os valores de TFIDF para crude por article_id e por word. Salve o tibble resultante como crude_weights.
  • Ordene crude_weights com a função arrange() por valores de tf_idf em ordem decrescente.
  • Filtre crude_weights para os menores valores de tf_idf diferentes de zero. Novamente, use a função arrange.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)
Editar e executar o código