Belge grupları için ağaç haritaları (treemap)

Çoğu zaman yazar, ürün ya da şirket gibi gruplar halinde belgelerle çalışırsın. Bu egzersiz, grupları kompakt bir görselde korurken metni keşfetmene yardımcı olur. Örneğin, ürün bazında gruplanmış müşteri yorumlarında aynı anda birden çok boyutu incelemek isteyebilirsin. Önce yorumların polarity() değerini hesaplayabilirsin. Başka bir boyut da uzunluk olabilir. Belge uzunluğu duygusal yoğunluğu gösterebilir. Bir müşteri kısa bir "great shoes!" yorumuyorsa, daha uzun bir olumlu yoruma kıyasla aslında daha az coşkulu olduğu çıkarılabilir. Ayrıca yorumları kadın, erkek ve çocuk ayakkabıları gibi ürün türüne göre de gruplamak isteyebilirsin. Bir treemap bu boyutların hepsini aynı anda görmene imkân tanır.

Metin analizinde, bir treemap içindeki her kutu bir tweet gibi tekil bir belgeyi temsil eder. Belgeler yazar gibi bir kritere göre gruplanır. Her kutunun boyutu sözcük veya harf sayısı gibi sayısal bir değere göre belirlenir. Renkler ise bir duygu (sentiment) puanına göre atanır.

Tibble’ı düzenledikten sonra görselleştirme için treemap() fonksiyonunu içeren treemap paketini kullanırsın. Aşağıdaki kod örneği veri, gruplayıcı değişkenler, boyut, renk ve diğer estetikleri tanımlar.

treemap(
  data_frame,
  index = c("group", "individual_document"),
  vSize = "doc_length",
  vColor = "avg_score",
  type = "value",
  title = "Sentiment Scores by Doc",
  palette = c("red", "white", "green")
)

Önceden yüklenmiş all_books nesnesi 4 Shakespeare, 3 Melville ve 4 Twain kitabını birleştiren düzenli (tidy) biçimde bir derlem (corpus) içerir. Treemap’e bakarak kimin daha uzun kitaplar yazdığını ve hem yazar genelinde hem de tek tek kitaplar için kutupsallığı (polarity) görebilmelisin.

Bu egzersiz, kursun bir parçasıdır

R ile Duygu Analizi

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

book_length <- all_books %>%
  # Count number of words per book
  ___(___)
  
# Examine the results
book_length

Kodu Düzenle ve Çalıştır