Frekans ağırlıklarını değiştirme

Şimdiye kadar, DocumentTermMatrix veya TermDocumentMatrix içinde belgelerdeki terimleri yalnızca saydın. Bu egzersizde, basit terim sıklığı yerine TfIdf ağırlıklandırmasını öğreneceksin. TfIdf, term frequency-inverse document frequency (terim sıklığı-ters belge sıklığı) anlamına gelir ve sınırlı terim çeşitliliğine sahip büyük bir derlemle çalışırken kullanılır.

TfIdf, terimleri sayar (yani Tf), değeri belge uzunluğuna göre normalize eder ve bir kelime belgeler arasında ne kadar sık geçiyorsa değeri o kadar azaltır. Bu mantıklıdır; bir kelime yaygınsa önemlidir ama içgörü sağlamaz. Bu ceza kısmı, ters belge sıklığıyla (yani Idf) yakalanır.

Örneğin, müşteri hizmetleri notlarını incelerken "customer" için kısaltma olarak "cu" terimi geçebilir. Bir notta "the cu has a damaged package" ve başka birinde "cu called with question about delivery" yazabilir. Belge sıklığı ağırlıklandırmasında, "cu" iki kez görünür, bu yüzden bilgilendirici olması beklenir. Ancak TfIdf'da, "cu" tüm belgelerde geçtiği için cezalandırılır. Sonuç olarak, "cu" yeni bir bilgi olarak görülmez ve değeri 0'a yaklaşacak şekilde düşer; böylece analizde diğer terimlerin değerleri daha yüksek olabilir.

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a TDM
tdm <- ___

# Convert it to a matrix
tdm_m <- ___

# Examine part of the matrix
tdm_m[___, ___]

Kodu Düzenle ve Çalıştır