Exemplo de BoW
Em revisões de literatura, pesquisadoras e pesquisadores leem e resumem o máximo de textos disponíveis sobre um assunto. Às vezes, acabam lendo artigos duplicados ou resumos de artigos que já leram. Você recebeu 20 artigos sobre petróleo bruto em um objeto do R chamado crude_tibble. Em vez de sair lendo cada artigo, você decidiu ver quais palavras são compartilhadas entre esses artigos. Para isso, você começará construindo uma representação bag-of-words do texto.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercício
- Crie uma representação BoW contando o número de palavras por artigo usando a coluna
article_id. - Use a saída para determinar quantas combinações únicas de artigo/palavra foram criadas.
- Filtre os resultados para menções a
'prices'. - Em quantos artigos a palavra
pricesfoi usada?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Count occurrence by article_id and word
words <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(___, ___, sort=TRUE)
# How many different word/article combinations are there?
unique_combinations <- nrow(___)
# Filter to responses with the word "prices"
words_with_prices <- words %>%
___(word == "___")
# How many articles had the word "prices"?
number_of_price_articles <- nrow(___)