Pertarungan seru! Ulasan pro Amazon vs. Google
Ulasan positif Amazon tampaknya menyebut bigram seperti "good benefits", sementara ulasan negatifnya menyoroti masalah seperti "workload" dan "work-life balance".
Sebaliknya, ulasan positif Google menyebut "great food", "perks", "smart people", dan "fun culture", di antara hal-hal lainnya. Ulasan negatif Google membahas "politics", "getting big", "bureaucracy", dan "middle management".
Anda memutuskan untuk membuat pyramid plot yang menyandingkan ulasan positif untuk Amazon dan Google agar Anda dapat membandingkan perbedaan pada bigram yang sama-sama muncul.
Kami telah memuat sebuah data frame, all_tdm_df, yang terdiri dari terms dan frekuensi bigram AmazonPro serta GooglePro. Dengan menggunakan data frame ini, Anda akan mengidentifikasi 5 bigram teratas yang muncul pada kedua korpus tersebut.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Buat
common_wordsdariall_tdm_dfmenggunakan fungsidplyr.filter()pada kolomAmazonPrountuk nilai yang tidak nol.- Demikian juga filter kolom
GooglePrountuk nilai yang tidak nol. - Lalu
mutate()kolom baru,diffyang merupakan selisihabs(absolut) antara kolom frekuensi term.
- Pipe
common_wordskeslice_maxuntuk membuattop5_dfdengan merujuk kolomdiffdan nilai teratas5. Objek ini akan tercetak ke konsol Anda untuk ditinjau. - Buat
pyramid.plotdengan memasukkantop5_df$AmazonPro, kemudiantop5_df$GooglePro, dan terakhir tambahkan label dengantop5_df$terms.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Filter to words in common and create an absolute diff column
common_words <- all_tdm_df %>%
filter(
___ != 0,
___ != 0
) %>%
___(diff = ___(___ - ___))
# Extract top 5 common bigrams
(top5_df <- common_words %>% ___(___, n = ___))
# Create the pyramid plot
pyramid.plot(top5_df$___, top5_df$___,
labels = top5_df$___, gap = 12,
top.labels = c("Amzn", "Pro Words", "Goog"),
main = "Words in Common", unit = NULL)