IniziaInizia gratis

Esempio BoW

Nelle review della letteratura, i ricercatori leggono e riassumono quanti più testi possibili su un argomento. A volte finiscono per leggere articoli duplicati o riassunti di articoli che hanno già letto. Ti sono stati forniti 20 articoli sul petrolio greggio come oggetto R chiamato crude_tibble. Invece di metterti subito a leggere ogni articolo, hai deciso di vedere quali parole sono condivise tra questi articoli. Per farlo, inizierai costruendo una rappresentazione bag-of-words del testo.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una rappresentazione BoW contando il numero di parole per articolo usando la colonna article_id.
  • Usa l’output per determinare quante combinazioni uniche articolo/parola sono state create.
  • Filtra i risultati per le occorrenze di 'prices'.
  • Quanti articoli contengono la parola prices?

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Count occurrence by article_id and word
words <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(___, ___, sort=TRUE)

# How many different word/article combinations are there?
unique_combinations <- nrow(___)

# Filter to responses with the word "prices"
words_with_prices <- words %>%
  ___(word == "___")

# How many articles had the word "prices"?
number_of_price_articles <- nrow(___)
Modifica ed esegui il codice