Práctica de TFIDF
Antes viste una representación de bolsa de palabras de artículos sobre petróleo crudo. Calcular los valores TFIDF se basa en esa representación, pero tiene en cuenta con qué frecuencia aparece una palabra en un artículo y con qué frecuencia aparece esa palabra en el conjunto de artículos.
Para saber qué palabras resultan más significativas al comparar distintos artículos, calcula los pesos TFIDF de las palabras en crude, una colección de 20 artículos sobre petróleo crudo.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Instrucciones del ejercicio
- Calcula los valores TFIDF para
crudeporarticle_idy porword. Guarda el tibble resultante comocrude_weights. - Ordena
crude_weightscon la funciónarrange()por valores detf_idfdescendentes. - Filtra
crude_weightspara quedarte con los valores detf_idfmás bajos distintos de cero. De nuevo, usa la funciónarrange.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a tibble with TFIDF values
___ <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(article_id, word) %>%
___(___, ___, n)
# Find the highest TFIDF values
crude_weights %>%
___(desc(___))
# Find the lowest non-zero TFIDF values
crude_weights %>%
filter(___ != ___) %>%
___(___)