TFIDF Alıştırması
Daha önce ham petrol hakkındaki makalelerin bir bag-of-words gösterimine bakmıştın. TFIDF değerlerini hesaplamak bu bag-of-words gösterimine dayanır; ancak bir kelimenin bir makalede ne sıklıkta geçtiğini ve o kelimenin makale koleksiyonu genelinde ne sıklıkta göründüğünü de hesaba katar.
Farklı makaleleri karşılaştırırken kelimelerin ne kadar anlamlı olduğunu görmek için, ham petrol hakkında 20 makaleden oluşan crude derlemesindeki kelimeler için TFIDF ağırlıklarını hesapla.
Bu egzersiz, kursun bir parçasıdır
R ile Doğal Dil İşlemeye Giriş
Egzersiz talimatları
crudeiçinarticle_idvewordbazında TFIDF değerlerini hesapla. Ortaya çıkan tibble'ıcrude_weightsolarak kaydet.crude_weights'iarrange()fonksiyonuylatf_idfdeğerlerine göre azalan şekilde sırala.crude_weights'i sıfır olmayan en düşüktf_idfdeğerlerine filtrele. Yinearrangefonksiyonunu kullan.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create a tibble with TFIDF values
___ <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(article_id, word) %>%
___(___, ___, n)
# Find the highest TFIDF values
crude_weights %>%
___(desc(___))
# Find the lowest non-zero TFIDF values
crude_weights %>%
filter(___ != ___) %>%
___(___)