Prática de TFIDF
Antes, você analisou uma representação de saco de palavras (bag-of-words) de artigos sobre petróleo bruto. O cálculo dos valores de TFIDF usa essa representação, mas leva em conta com que frequência uma palavra aparece em um artigo e com que frequência essa palavra aparece no conjunto de artigos.
Para entender o quanto as palavras são significativas ao comparar diferentes artigos, calcule os pesos de TFIDF das palavras em crude, uma coleção de 20 artigos sobre petróleo bruto.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercício
- Calcule os valores de TFIDF para
crudeporarticle_ide porword. Salve o tibble resultante comocrude_weights. - Ordene
crude_weightscom a funçãoarrange()por valores detf_idfem ordem decrescente. - Filtre
crude_weightspara os menores valores detf_idfdiferentes de zero. Novamente, use a funçãoarrange.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a tibble with TFIDF values
___ <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(article_id, word) %>%
___(___, ___, n)
# Find the highest TFIDF values
crude_weights %>%
___(desc(___))
# Find the lowest non-zero TFIDF values
crude_weights %>%
filter(___ != ___) %>%
___(___)