Kafes dövüşü! Amazon vs. Google olumlu yorumları
Amazon'un olumlu yorumlarında "good benefits" gibi ikililer öne çıkarken, olumsuz yorumlar "workload" ve "work-life balance" gibi konulara odaklanıyor.
Buna karşılık, Google'ın olumlu yorumlarında "great food", "perks", "smart people" ve "fun culture" gibi ifadeler yer alıyor. Olumsuz yorumlarda ise "politics", "getting big", "bureaucracy" ve "middle management" tartışılıyor.
Paylaşılan ikililer arasındaki farkları karşılaştırabilmek için Amazon ve Google'ın olumlu yorumlarını yan yana dizen bir piramit grafiği oluşturmayı seçiyorsun.
terms ile bunlara karşılık gelen AmazonPro ve GooglePro ikili frekanslarından oluşan all_tdm_df adlı bir veri çerçevesini önceden yükledik. Bu veri çerçevesini kullanarak iki derlem arasında paylaşılan en iyi 5 ikiliyi belirleyeceksin.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
dplyrfonksiyonlarını kullanarakall_tdm_df'dencommon_wordsoluştur.AmazonProsütununda sıfır olmayan değerler içinfilter()uygula.- Aynı şekilde
GoogleProsütununda da sıfır olmayan değerler için filtrele. - Ardından terim frekansı sütunları arasındaki mutlak farkın
abs'ını alandiffadlı yeni bir sütunumutate()ile ekle.
common_words'ıslice_maxiçine pipe ederekdiffsütununa göre en büyük5değeri alantop5_df'yi oluştur. İnceleme için konsoluna yazdırılacak.pyramid.plotoluştur ve sırasıylatop5_df$AmazonPro, ardındantop5_df$GoogleProgeçir; son olarak etiketler içintop5_df$termsekle.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Filter to words in common and create an absolute diff column
common_words <- all_tdm_df %>%
filter(
___ != 0,
___ != 0
) %>%
___(diff = ___(___ - ___))
# Extract top 5 common bigrams
(top5_df <- common_words %>% ___(___, n = ___))
# Create the pyramid plot
pyramid.plot(top5_df$___, top5_df$___,
labels = top5_df$___, gap = 12,
top.labels = c("Amzn", "Pro Words", "Goog"),
main = "Words in Common", unit = NULL)