BaşlayınÜcretsiz Başlayın

Metin analizinde başarısız olmanın bir örneği

Daha önce, metin analizine başlamadan önce durak sözcükleri (stop-words) kaldırmanın öneminden bahsetmiştin. Bu son bölümde, birbirine benzer metinleri belirlemek için kosinüs benzerliğini kullanmayı gözden geçirdin.

Bu egzersizde, metin analizini doğru kullanamamaya dair oldukça gerçek bir ihtimali keşfedeceksin. Animal Farm kitabındaki bölümler için, durak sözcükleri kaldırmadan kosinüs benzerliklerini hesaplayacaksın.

Bu egzersiz

R ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Sağlanan kodu inceleyerek sözcük sayılarını oluştur. Bu kısım senin için tamamlandı.
  • widyr paketindeki pairwise_similarity() fonksiyonunu kullanarak, chapter sütunundaki her bölüm için kosinüs benzerliklerini hesapla.
  • Sonuçları en yüksek similarity değerleri en üstte olacak şekilde sırala.
  • similarity değerlerinin ortalamasını mean ile hesapla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create word counts
animal_farm_counts <- animal_farm %>%
  unnest_tokens(word, text_column) %>%
  count(chapter, word)

# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
  ___(___, ___, n) %>%
  arrange(desc(___))

# Print the mean of the similarity values
comparisons %>%
  summarize(mean = ___(___))
Kodu Düzenle ve Çalıştır