MulaiMulai sekarang secara gratis

Pertarungan seru! Ulasan pro Amazon vs. Google

Ulasan positif Amazon tampaknya menyebut bigram seperti "good benefits", sementara ulasan negatifnya menyoroti masalah seperti "workload" dan "work-life balance".

Sebaliknya, ulasan positif Google menyebut "great food", "perks", "smart people", dan "fun culture", di antara hal-hal lainnya. Ulasan negatif Google membahas "politics", "getting big", "bureaucracy", dan "middle management".

Anda memutuskan untuk membuat pyramid plot yang menyandingkan ulasan positif untuk Amazon dan Google agar Anda dapat membandingkan perbedaan pada bigram yang sama-sama muncul. Kami telah memuat sebuah data frame, all_tdm_df, yang terdiri dari terms dan frekuensi bigram AmazonPro serta GooglePro. Dengan menggunakan data frame ini, Anda akan mengidentifikasi 5 bigram teratas yang muncul pada kedua korpus tersebut.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Buat common_words dari all_tdm_df menggunakan fungsi dplyr.
    • filter() pada kolom AmazonPro untuk nilai yang tidak nol.
    • Demikian juga filter kolom GooglePro untuk nilai yang tidak nol.
    • Lalu mutate() kolom baru, diff yang merupakan selisih abs (absolut) antara kolom frekuensi term.
  • Pipe common_words ke slice_max untuk membuat top5_df dengan merujuk kolom diff dan nilai teratas 5. Objek ini akan tercetak ke konsol Anda untuk ditinjau.
  • Buat pyramid.plot dengan memasukkan top5_df$AmazonPro, kemudian top5_df$GooglePro, dan terakhir tambahkan label dengan top5_df$terms.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Filter to words in common and create an absolute diff column
common_words <- all_tdm_df %>% 
  filter(
    ___ != 0,
    ___ != 0
  ) %>%
  ___(diff = ___(___ - ___))

# Extract top 5 common bigrams
(top5_df <- common_words %>% ___(___, n = ___))

# Create the pyramid plot
pyramid.plot(top5_df$___, top5_df$___, 
             labels = top5_df$___, gap = 12, 
             top.labels = c("Amzn", "Pro Words", "Goog"), 
             main = "Words in Common", unit = NULL)
Edit dan Jalankan Kode