MulaiMulai sekarang secara gratis

Contoh BoW

Dalam tinjauan pustaka, peneliti membaca dan merangkum sebanyak mungkin teks yang tersedia tentang suatu topik. Terkadang mereka akhirnya membaca artikel yang duplikat, atau ringkasan dari artikel yang sudah mereka baca. Anda diberikan 20 artikel tentang minyak mentah sebagai objek R bernama crude_tibble. Alih-alih langsung membaca setiap artikel, Anda memutuskan untuk melihat kata-kata apa yang muncul bersama di semua artikel tersebut. Untuk itu, Anda akan mulai dengan membangun representasi bag-of-words dari teksnya.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Petunjuk latihan

  • Buat representasi BoW dengan menghitung jumlah kata per artikel menggunakan kolom article_id.
  • Gunakan keluarannya untuk menentukan berapa banyak kombinasi artikel/kata yang unik yang dibuat.
  • Saring hasilnya untuk kemunculan 'prices'.
  • Berapa banyak artikel yang menggunakan kata prices?

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Count occurrence by article_id and word
words <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(___, ___, sort=TRUE)

# How many different word/article combinations are there?
unique_combinations <- nrow(___)

# Filter to responses with the word "prices"
words_with_prices <- words %>%
  ___(word == "___")

# How many articles had the word "prices"?
number_of_price_articles <- nrow(___)
Edit dan Jalankan Kode