Metin analizinde başarısız olmanın bir örneği
Daha önce, metin analizine başlamadan önce durak sözcükleri (stop-words) kaldırmanın öneminden bahsetmiştin. Bu son bölümde, birbirine benzer metinleri belirlemek için kosinüs benzerliğini kullanmayı gözden geçirdin.
Bu egzersizde, metin analizini doğru kullanamamaya dair oldukça gerçek bir ihtimali keşfedeceksin. Animal Farm kitabındaki bölümler için, durak sözcükleri kaldırmadan kosinüs benzerliklerini hesaplayacaksın.
Bu egzersiz, kursun bir parçasıdır
R ile Doğal Dil İşlemeye Giriş
Egzersiz talimatları
- Sağlanan kodu inceleyerek sözcük sayılarını oluştur. Bu kısım senin için tamamlandı.
widyrpaketindekipairwise_similarity()fonksiyonunu kullanarak,chaptersütunundaki her bölüm için kosinüs benzerliklerini hesapla.- Sonuçları en yüksek
similaritydeğerleri en üstte olacak şekilde sırala. similaritydeğerlerinin ortalamasınımeanile hesapla.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create word counts
animal_farm_counts <- animal_farm %>%
unnest_tokens(word, text_column) %>%
count(chapter, word)
# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
___(___, ___, n) %>%
arrange(desc(___))
# Print the mean of the similarity values
comparisons %>%
summarize(mean = ___(___))