Ejemplo de BoW
En las revisiones de literatura, las personas investigadoras leen y resumen tantos textos disponibles sobre un tema como sea posible. A veces acaban leyendo artículos duplicados o resúmenes de artículos que ya han leído. Te han dado 20 artículos sobre petróleo crudo en un objeto de R llamado crude_tibble. En lugar de lanzarte directamente a leer cada artículo, has decidido ver qué palabras se comparten entre ellos. Para hacerlo, empezarás construyendo una representación de bolsa de palabras del texto.
Este ejercicio forma parte del curso
Introducción al procesamiento del lenguaje natural en R
Instrucciones del ejercicio
- Crea una representación BoW contando el número de palabras por artículo usando la columna
article_id. - Usa el resultado para determinar cuántas combinaciones únicas de artículo/palabra se crearon.
- Filtra los resultados a menciones de
'prices'. - ¿En cuántos artículos aparece la palabra
prices?
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Count occurrence by article_id and word
words <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(___, ___, sort=TRUE)
# How many different word/article combinations are there?
unique_combinations <- nrow(___)
# Filter to responses with the word "prices"
words_with_prices <- words %>%
___(word == "___")
# How many articles had the word "prices"?
number_of_price_articles <- nrow(___)