1. Learn
  2. /
  3. Courses
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Exercise

Trận đấu tay đôi! Đánh giá tích cực: Amazon vs. Google

Các đánh giá tích cực về Amazon dường như nhắc đến các bigram như "good benefits", trong khi các đánh giá tiêu cực tập trung vào các bigram như vấn đề "workload" và "work-life balance".

Ngược lại, các đánh giá tích cực về Google đề cập đến "great food", "perks", "smart people" và "fun culture", cùng nhiều điểm khác. Các đánh giá tiêu cực về Google bàn về "politics", "getting big", "bureaucracy" và "middle management".

Bạn quyết định tạo một biểu đồ hình kim tự tháp (pyramid plot) xếp các đánh giá tích cực cho Amazon và Google để so sánh sự khác biệt giữa các bigram chung. Chúng tôi đã nạp sẵn một data frame, all_tdm_df, gồm terms và tần suất bigram tương ứng AmazonPro và GooglePro. Dựa trên data frame này, bạn sẽ xác định 5 bigram hàng đầu được chia sẻ giữa hai corpus.

Instructions

100 XP
  • Tạo common_words từ all_tdm_df bằng các hàm của dplyr.
    • filter() trên cột AmazonPro để giữ các giá trị khác 0.
    • Tương tự, lọc cột GooglePro cho các giá trị khác 0.
    • Sau đó mutate() một cột mới, diff, là độ chênh lệch tuyệt đối (abs) giữa các cột tần suất thuật ngữ.
  • Dùng pipe chuyển common_words vào slice_max để tạo top5_df, tham chiếu cột diff và lấy top 5 giá trị. Kết quả sẽ in ra console để bạn xem.
  • Tạo pyramid.plot, truyền lần lượt top5_df$AmazonPro, rồi top5_df$GooglePro, và cuối cùng thêm nhãn với top5_df$terms.