1. Learn
  2. /
  3. Courses
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Exercise

Trực quan hóa các từ chung

Giờ đây bạn đã có một corpus chứa các từ xuất hiện trong cả hai tệp tweet về chardonnay và coffee, bạn có thể làm sạch corpus, chuyển nó thành TermDocumentMatrix, rồi thành một ma trận để chuẩn bị cho commonality.cloud().

Hàm commonality.cloud() nhận đối tượng ma trận này, cùng với các đối số bổ sung như max.words và colors để tùy chỉnh biểu đồ.

commonality.cloud(tdm_matrix, max.words = 100, colors = "springgreen")

Instructions

100 XP
  • Tạo all_clean bằng cách áp dụng hàm clean_corpus() đã định nghĩa sẵn cho all_corpus.
  • Tạo all_tdm, một TermDocumentMatrix từ all_clean.
  • Tạo all_m bằng cách chuyển all_tdm thành một đối tượng ma trận.
  • Tạo commonality.cloud() từ all_m với max.words = 100 và colors = "steelblue1".