Práctica de TFIDF

Antes viste una representación de bolsa de palabras de artículos sobre petróleo crudo. Calcular los valores TFIDF se basa en esa representación, pero tiene en cuenta con qué frecuencia aparece una palabra en un artículo y con qué frecuencia aparece esa palabra en el conjunto de artículos.

Para saber qué palabras resultan más significativas al comparar distintos artículos, calcula los pesos TFIDF de las palabras en crude, una colección de 20 artículos sobre petróleo crudo.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Ver curso

Instrucciones del ejercicio

Calcula los valores TFIDF para crude por article_id y por word. Guarda el tibble resultante como crude_weights.
Ordena crude_weights con la función arrange() por valores de tf_idf descendentes.
Filtra crude_weights para quedarte con los valores de tf_idf más bajos distintos de cero. De nuevo, usa la función arrange.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)

Editar y ejecutar código

Introducción al procesamiento del lenguaje natural en R

IntermedioNivel de habilidad

4.8+

40 reviews

En el capítulo 4 cubrimos dos pilares del procesamiento del lenguaje natural: el análisis de sentimiento y las incrustaciones de palabras. Son dos técnicas imprescindibles para quien aprende los fundamentos del análisis de texto. Además, verás brevemente BERT, el etiquetado gramatical (part-of-speech) y el reconocimiento de entidades con nombre. En este curso se han cubierto casi 15 técnicas de análisis diferentes, así que el capítulo 4 termina recapitulando todas las excelentes técnicas que conocerás en este curso.

Exercise 1: Análisis de sentimiento Exercise 2: léxicos de tidytext Exercise 3: Puntajes de sentimiento Exercise 4: Sentimiento y emoción Exercise 5: Word embeddings Exercise 6: Práctica con h2o Exercise 7: word2vec Exercise 8: Análisis adicional de NLP Exercise 9: Repaso de métodos #1 Exercise 10: Repaso de métodos #2 Exercise 11: Conclusión