ComenzarEmpieza gratis

Práctica de TFIDF

Antes viste una representación de bolsa de palabras de artículos sobre petróleo crudo. Calcular los valores TFIDF se basa en esa representación, pero tiene en cuenta con qué frecuencia aparece una palabra en un artículo y con qué frecuencia aparece esa palabra en el conjunto de artículos.

Para saber qué palabras resultan más significativas al comparar distintos artículos, calcula los pesos TFIDF de las palabras en crude, una colección de 20 artículos sobre petróleo crudo.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Ver curso

Instrucciones del ejercicio

  • Calcula los valores TFIDF para crude por article_id y por word. Guarda el tibble resultante como crude_weights.
  • Ordena crude_weights con la función arrange() por valores de tf_idf descendentes.
  • Filtra crude_weights para quedarte con los valores de tf_idf más bajos distintos de cero. De nuevo, usa la función arrange.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)
Editar y ejecutar código