Yığınlı çubuk grafiği: karşılaştır ve karşıtlaştır

Metnini dilimlemenin başka bir yolu da belgenin ne kadarının olumlu ya da olumsuz sözcüklerden oluştuğunu anlamaktır. Örneğin bir restoran yorumu, "yemek iyiydi" gibi bazı olumlu noktalara sahip olabilir ama ardından "restoran pisti, personel kabaydı ve otopark berbattı" diye devam edebilir. Sonuç olarak, bir belgenin ne kadarının olumlu dile, ne kadarının olumsuz dile ayrıldığını görmek isteyebilirsin. Bu örnekte olumluya kıyasla olumsuz yüzdesi daha yüksek olacaktır.

Bunu yapmanın bir yöntemi, olumlu ve olumsuz sözcükleri count() ile sayıp ardından belirlenen öznellik sözcüklerinin sayısına bölmektir. Restoran yorumu örneğinde, "good" 1 olumlu sayılır; "dirty", "rude" ve "awful" ise 3 olumsuz terim sayılır. Basit bir hesaplama, 4 öznellik terimi olduğuna göre, restoran yorumunun %25 olumlu ve %75 olumsuz olduğunu düşündürür.

4 kitabı — Agamemnon, Oz, Huck Finn ve Moby Dick — içeren birleşik, düzenli bir veri çerçevesi üzerinde inner_join() işlemini yaparak başla. Tıpkı önceki egzersizde olduğu gibi filter() ve grepl() kullanacaksın.

count() işlemini gerçekleştirmek için veriyi kitaba ve ardından duyguya göre gruplaman gerekir. Örneğin Agamemnon için tüm olumlu sözcükler gruplanıp sayılmalı ki tüm kitaplardaki olumlu sözcükler birbirine karışmasın. Neyse ki count() içine birden fazla değişkeni doğrudan geçebilirsin.

Bu egzersiz, kursun bir parçasıdır

R ile Duygu Analizi

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Review tail of all_books
tail(all_books)

# Count by book & sentiment
books_sent_count <- all_books %>%
  # Inner join to nrc lexicon
  ___(___, by = c("term" = "word")) %>% 
  # Keep only positive or negative
  ___(__("___", sentiment)) %>% 
  # Count by book and by sentiment
  ___(___, ___)
  
# Review entire object
books_sent_count

Kodu Düzenle ve Çalıştır