BoW Örneği
Literatür taramalarında araştırmacılar, bir konu hakkında mevcut olan metinlerin olabildiğince çoğunu okuyup özetler. Bazen aynı makaleleri tekrar okuyabilir veya daha önce okudukları makalelerin özetlerine denk gelebilirler. Sana crude_tibble adlı bir R nesnesi olarak ham petrol hakkında 20 makale verildi. Her makaleyi okumaya doğrudan dalmak yerine, bu makalelerde hangi kelimelerin ortak olduğunu görmek istedin. Bunu yapmak için, metnin bir bag-of-words (BoW) gösterimini oluşturarak başlayacaksın.
Bu egzersiz
R ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
article_idsütununu kullanarak makale bazında kelimeleri sayıp bir BoW gösterimi oluştur.- Çıktıyı kullanarak kaç benzersiz makale/kelime kombinasyonu oluşturulduğunu belirle.
- Sonuçları
'prices'geçenlere filtrele. - Kaç makalede
priceskelimesi kullanılmış?
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Count occurrence by article_id and word
words <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(___, ___, sort=TRUE)
# How many different word/article combinations are there?
unique_combinations <- nrow(___)
# Filter to responses with the word "prices"
words_with_prices <- words %>%
___(word == "___")
# How many articles had the word "prices"?
number_of_price_articles <- nrow(___)