BaşlayınÜcretsiz Başlayın

BoW Örneği

Literatür taramalarında araştırmacılar, bir konu hakkında mevcut olan metinlerin olabildiğince çoğunu okuyup özetler. Bazen aynı makaleleri tekrar okuyabilir veya daha önce okudukları makalelerin özetlerine denk gelebilirler. Sana crude_tibble adlı bir R nesnesi olarak ham petrol hakkında 20 makale verildi. Her makaleyi okumaya doğrudan dalmak yerine, bu makalelerde hangi kelimelerin ortak olduğunu görmek istedin. Bunu yapmak için, metnin bir bag-of-words (BoW) gösterimini oluşturarak başlayacaksın.

Bu egzersiz

R ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • article_id sütununu kullanarak makale bazında kelimeleri sayıp bir BoW gösterimi oluştur.
  • Çıktıyı kullanarak kaç benzersiz makale/kelime kombinasyonu oluşturulduğunu belirle.
  • Sonuçları 'prices' geçenlere filtrele.
  • Kaç makalede prices kelimesi kullanılmış?

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Count occurrence by article_id and word
words <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(___, ___, sort=TRUE)

# How many different word/article combinations are there?
unique_combinations <- nrow(___)

# Filter to responses with the word "prices"
words_with_prices <- words %>%
  ___(word == "___")

# How many articles had the word "prices"?
number_of_price_articles <- nrow(___)
Kodu Düzenle ve Çalıştır