TFIDF Alıştırması
Daha önce ham petrol hakkındaki makalelerin bir bag-of-words gösterimine bakmıştın. TFIDF değerlerini hesaplamak bu bag-of-words gösterimine dayanır; ancak bir kelimenin bir makalede ne sıklıkta geçtiğini ve o kelimenin makale koleksiyonu genelinde ne sıklıkta göründüğünü de hesaba katar.
Farklı makaleleri karşılaştırırken kelimelerin ne kadar anlamlı olduğunu görmek için, ham petrol hakkında 20 makaleden oluşan crude derlemesindeki kelimeler için TFIDF ağırlıklarını hesapla.
Bu egzersiz
R ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
crudeiçinarticle_idvewordbazında TFIDF değerlerini hesapla. Ortaya çıkan tibble'ıcrude_weightsolarak kaydet.crude_weights'iarrange()fonksiyonuylatf_idfdeğerlerine göre azalan şekilde sırala.crude_weights'i sıfır olmayan en düşüktf_idfdeğerlerine filtrele. Yinearrangefonksiyonunu kullan.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a tibble with TFIDF values
___ <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(article_id, word) %>%
___(___, ___, n)
# Find the highest TFIDF values
crude_weights %>%
___(desc(___))
# Find the lowest non-zero TFIDF values
crude_weights %>%
filter(___ != ___) %>%
___(___)