1. Lära sig
  2. /
  3. Courses
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

exercise

Trích xuất đặc trưng & phân tích: amzn_cons

Giờ bạn quyết định so sánh với kho văn bản amzn_cons_corp trong một TDM bigram khác. Tất nhiên, bạn kỳ vọng sẽ thấy một số cụm từ khác trong đám mây từ.

Một lần nữa, bạn sẽ dùng hàm tùy chỉnh này để trích xuất các đặc trưng bigram cho trực quan hóa:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Instruktioner

100 XP
  • Tạo amzn_c_tdm bằng cách chuyển amzn_cons_corp thành TermDocumentMatrix và thêm hàm bigram control = list(tokenize = tokenizer).
  • Tạo amzn_c_tdm_m là phiên bản ma trận của amzn_c_tdm.
  • Tạo amzn_c_freq bằng cách dùng rowSums() để lấy tần suất thuật ngữ từ amzn_c_tdm_m.
  • Tạo một wordcloud() sử dụng names(amzn_c_freq) và các giá trị amzn_c_freq. Đồng thời dùng các đối số max.words = 25 và color = "red".