1. Învăţa
  2. /
  3. Courses
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

exercise

Nếm thử nhanh text mining

Đôi khi bạn có thể đoán được mục đích và ý chính của tác giả chỉ bằng cách nhìn vào những từ xuất hiện nhiều nhất.

Cốt lõi của phương pháp bag-of-words trong text mining là đếm các thuật ngữ, hay n-gram, trong một tập hợp tài liệu. Hãy xem các câu sau, đã được lưu vào text và có sẵn trong không gian làm việc của bạn:

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

Đếm thủ công các từ trong những câu trên thật mất công! May mắn là package qdap có một cách tốt hơn. Bạn có thể dễ dàng tìm 4 thuật ngữ xuất hiện thường xuyên nhất (kể cả trường hợp đồng hạng) trong text bằng cách gọi hàm freq_terms với đối số 4.

frequent_terms <- freq_terms(text, 4)

Đối tượng frequent_terms lưu tất cả các từ duy nhất và số lần xuất hiện của chúng. Sau đó bạn có thể vẽ biểu đồ cột chỉ bằng cách gọi hàm plot trên đối tượng frequent_terms.

plot(frequent_terms)

Instrucţiuni

100 XP

Chúng tôi đã tạo một đối tượng trong không gian làm việc của bạn tên là new_text chứa một vài câu.

  • Tải package qdap.
  • In new_text ra console.
  • Tạo term_count gồm 10 thuật ngữ xuất hiện nhiều nhất trong new_text.
  • Vẽ biểu đồ cột với kết quả của term_count.