Frekans ağırlıklarını değiştirme
Şimdiye kadar, DocumentTermMatrix veya TermDocumentMatrix içinde belgelerdeki terimleri yalnızca saydın. Bu egzersizde, basit terim sıklığı yerine TfIdf ağırlıklandırmasını öğreneceksin. TfIdf, term frequency-inverse document frequency (terim sıklığı-ters belge sıklığı) anlamına gelir ve sınırlı terim çeşitliliğine sahip büyük bir derlemle çalışırken kullanılır.
TfIdf, terimleri sayar (yani Tf), değeri belge uzunluğuna göre normalize eder ve bir kelime belgeler arasında ne kadar sık geçiyorsa değeri o kadar azaltır. Bu mantıklıdır; bir kelime yaygınsa önemlidir ama içgörü sağlamaz. Bu ceza kısmı, ters belge sıklığıyla (yani Idf) yakalanır.
Örneğin, müşteri hizmetleri notlarını incelerken "customer" için kısaltma olarak "cu" terimi geçebilir. Bir notta "the cu has a damaged package" ve başka birinde "cu called with question about delivery" yazabilir. Belge sıklığı ağırlıklandırmasında, "cu" iki kez görünür, bu yüzden bilgilendirici olması beklenir. Ancak TfIdf'da, "cu" tüm belgelerde geçtiği için cezalandırılır. Sonuç olarak, "cu" yeni bir bilgi olarak görülmez ve değeri 0'a yaklaşacak şekilde düşer; böylece analizde diğer terimlerin değerleri daha yüksek olabilir.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a TDM
tdm <- ___
# Convert it to a matrix
tdm_m <- ___
# Examine part of the matrix
tdm_m[___, ___]