BaşlayınÜcretsiz Başlayın

Kafes dövüşü! Amazon vs. Google olumlu yorumları

Amazon'un olumlu yorumlarında "good benefits" gibi ikililer öne çıkarken, olumsuz yorumlar "workload" ve "work-life balance" gibi konulara odaklanıyor.

Buna karşılık, Google'ın olumlu yorumlarında "great food", "perks", "smart people" ve "fun culture" gibi ifadeler yer alıyor. Olumsuz yorumlarda ise "politics", "getting big", "bureaucracy" ve "middle management" tartışılıyor.

Paylaşılan ikililer arasındaki farkları karşılaştırabilmek için Amazon ve Google'ın olumlu yorumlarını yan yana dizen bir piramit grafiği oluşturmayı seçiyorsun.
terms ile bunlara karşılık gelen AmazonPro ve GooglePro ikili frekanslarından oluşan all_tdm_df adlı bir veri çerçevesini önceden yükledik. Bu veri çerçevesini kullanarak iki derlem arasında paylaşılan en iyi 5 ikiliyi belirleyeceksin.

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • dplyr fonksiyonlarını kullanarak all_tdm_df'den common_words oluştur.
    • AmazonPro sütununda sıfır olmayan değerler için filter() uygula.
    • Aynı şekilde GooglePro sütununda da sıfır olmayan değerler için filtrele.
    • Ardından terim frekansı sütunları arasındaki mutlak farkın abs'ını alan diff adlı yeni bir sütunu mutate() ile ekle.
  • common_wordsslice_max içine pipe ederek diff sütununa göre en büyük 5 değeri alan top5_df'yi oluştur. İnceleme için konsoluna yazdırılacak.
  • pyramid.plot oluştur ve sırasıyla top5_df$AmazonPro, ardından top5_df$GooglePro geçir; son olarak etiketler için top5_df$terms ekle.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Filter to words in common and create an absolute diff column
common_words <- all_tdm_df %>% 
  filter(
    ___ != 0,
    ___ != 0
  ) %>%
  ___(diff = ___(___ - ___))

# Extract top 5 common bigrams
(top5_df <- common_words %>% ___(___, n = ___))

# Create the pyramid plot
pyramid.plot(top5_df$___, top5_df$___, 
             labels = top5_df$___, gap = 12, 
             top.labels = c("Amzn", "Pro Words", "Goog"), 
             main = "Words in Common", unit = NULL)
Kodu Düzenle ve Çalıştır