Metin analizinde başarısız olmanın bir örneği
Daha önce, metin analizine başlamadan önce durak sözcükleri (stop-words) kaldırmanın öneminden bahsetmiştin. Bu son bölümde, birbirine benzer metinleri belirlemek için kosinüs benzerliğini kullanmayı gözden geçirdin.
Bu egzersizde, metin analizini doğru kullanamamaya dair oldukça gerçek bir ihtimali keşfedeceksin. Animal Farm kitabındaki bölümler için, durak sözcükleri kaldırmadan kosinüs benzerliklerini hesaplayacaksın.
Bu egzersiz
R ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
- Sağlanan kodu inceleyerek sözcük sayılarını oluştur. Bu kısım senin için tamamlandı.
widyrpaketindekipairwise_similarity()fonksiyonunu kullanarak,chaptersütunundaki her bölüm için kosinüs benzerliklerini hesapla.- Sonuçları en yüksek
similaritydeğerleri en üstte olacak şekilde sırala. similaritydeğerlerinin ortalamasınımeanile hesapla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create word counts
animal_farm_counts <- animal_farm %>%
unnest_tokens(word, text_column) %>%
count(chapter, word)
# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
___(___, ___, n) %>%
arrange(desc(___))
# Print the mean of the similarity values
comparisons %>%
summarize(mean = ___(___))