Mulai sekarangMulai gratis

Contoh BoW

Dalam tinjauan pustaka, peneliti membaca dan merangkum sebanyak mungkin teks yang tersedia tentang suatu topik. Terkadang mereka akhirnya membaca artikel yang duplikat, atau ringkasan dari artikel yang sudah mereka baca. Anda diberikan 20 artikel tentang minyak mentah sebagai objek R bernama crude_tibble. Alih-alih langsung membaca setiap artikel, Anda memutuskan untuk melihat kata-kata apa yang muncul bersama di semua artikel tersebut. Untuk itu, Anda akan mulai dengan membangun representasi bag-of-words dari teksnya.

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Instruksi latihan

  • Buat representasi BoW dengan menghitung jumlah kata per artikel menggunakan kolom article_id.
  • Gunakan keluarannya untuk menentukan berapa banyak kombinasi artikel/kata yang unik yang dibuat.
  • Saring hasilnya untuk kemunculan 'prices'.
  • Berapa banyak artikel yang menggunakan kata prices?

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Count occurrence by article_id and word
words <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(___, ___, sort=TRUE)

# How many different word/article combinations are there?
unique_combinations <- nrow(___)

# Filter to responses with the word "prices"
words_with_prices <- words %>%
  ___(word == "___")

# How many articles had the word "prices"?
number_of_price_articles <- nrow(___)
Edit dan Jalankan Kode