BaşlayınÜcretsiz başlayın

Metin analizinde başarısız olmanın bir örneği

Daha önce, metin analizine başlamadan önce durak sözcükleri (stop-words) kaldırmanın öneminden bahsetmiştin. Bu son bölümde, birbirine benzer metinleri belirlemek için kosinüs benzerliğini kullanmayı gözden geçirdin.

Bu egzersizde, metin analizini doğru kullanamamaya dair oldukça gerçek bir ihtimali keşfedeceksin. Animal Farm kitabındaki bölümler için, durak sözcükleri kaldırmadan kosinüs benzerliklerini hesaplayacaksın.

Bu egzersiz, kursun bir parçasıdır

R ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Egzersiz talimatları

  • Sağlanan kodu inceleyerek sözcük sayılarını oluştur. Bu kısım senin için tamamlandı.
  • widyr paketindeki pairwise_similarity() fonksiyonunu kullanarak, chapter sütunundaki her bölüm için kosinüs benzerliklerini hesapla.
  • Sonuçları en yüksek similarity değerleri en üstte olacak şekilde sırala.
  • similarity değerlerinin ortalamasını mean ile hesapla.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create word counts
animal_farm_counts <- animal_farm %>%
  unnest_tokens(word, text_column) %>%
  count(chapter, word)

# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
  ___(___, ___, n) %>%
  arrange(desc(___))

# Print the mean of the similarity values
comparisons %>%
  summarize(mean = ___(___))
Kodu Düzenle ve Çalıştır