BaşlayınÜcretsiz Başlayın

TFIDF Alıştırması

Daha önce ham petrol hakkındaki makalelerin bir bag-of-words gösterimine bakmıştın. TFIDF değerlerini hesaplamak bu bag-of-words gösterimine dayanır; ancak bir kelimenin bir makalede ne sıklıkta geçtiğini ve o kelimenin makale koleksiyonu genelinde ne sıklıkta göründüğünü de hesaba katar.

Farklı makaleleri karşılaştırırken kelimelerin ne kadar anlamlı olduğunu görmek için, ham petrol hakkında 20 makaleden oluşan crude derlemesindeki kelimeler için TFIDF ağırlıklarını hesapla.

Bu egzersiz

R ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • crude için article_id ve word bazında TFIDF değerlerini hesapla. Ortaya çıkan tibble'ı crude_weights olarak kaydet.
  • crude_weights'i arrange() fonksiyonuyla tf_idf değerlerine göre azalan şekilde sırala.
  • crude_weights'i sıfır olmayan en düşük tf_idf değerlerine filtrele. Yine arrange fonksiyonunu kullan.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)
Kodu Düzenle ve Çalıştır