1. Learn
  2. /
  3. Courses
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Exercise

Trích xuất đặc trưng & phân tích: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp và goog_cons_corp đều đã được tiền xử lý, vì vậy giờ bạn có thể trích xuất các đặc trưng muốn phân tích. Vì bạn đang dùng phương pháp bag of words, bạn quyết định tạo một TermDocumentMatrix bigram cho tập hợp đánh giá tích cực của Amazon, amzn_pros_corp. Từ đó, bạn có thể nhanh chóng tạo một wordcloud() để hiểu những cụm từ mà mọi người liên tưởng tích cực đến việc làm tại Amazon.

Hàm dưới đây dùng RWeka để token hóa hai từ và được sử dụng ngầm trong bài tập này.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Instructions

100 XP
  • Tạo amzn_p_tdm là một TermDocumentMatrix từ amzn_pros_corp. Nhớ thêm control = list(tokenize = tokenizer) để các thuật ngữ là bigram.
  • Tạo amzn_p_tdm_m từ amzn_p_tdm bằng cách dùng hàm as.matrix().
  • Tạo amzn_p_freq để lấy tần suất thuật ngữ từ amzn_p_tdm_m.
  • Tạo một wordcloud() dùng names(amzn_p_freq) làm các từ, amzn_p_freq làm tần suất tương ứng, và dùng max.words = 25 cùng color = "blue" cho phần hiển thị.