BaşlayınÜcretsiz başlayın

TFIDF Alıştırması

Daha önce ham petrol hakkındaki makalelerin bir bag-of-words gösterimine bakmıştın. TFIDF değerlerini hesaplamak bu bag-of-words gösterimine dayanır; ancak bir kelimenin bir makalede ne sıklıkta geçtiğini ve o kelimenin makale koleksiyonu genelinde ne sıklıkta göründüğünü de hesaba katar.

Farklı makaleleri karşılaştırırken kelimelerin ne kadar anlamlı olduğunu görmek için, ham petrol hakkında 20 makaleden oluşan crude derlemesindeki kelimeler için TFIDF ağırlıklarını hesapla.

Bu egzersiz, kursun bir parçasıdır

R ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Egzersiz talimatları

  • crude için article_id ve word bazında TFIDF değerlerini hesapla. Ortaya çıkan tibble'ı crude_weights olarak kaydet.
  • crude_weights'i arrange() fonksiyonuyla tf_idf değerlerine göre azalan şekilde sırala.
  • crude_weights'i sıfır olmayan en düşük tf_idf değerlerine filtrele. Yine arrange fonksiyonunu kullan.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)
Kodu Düzenle ve Çalıştır