1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Tạo một VCorpus từ data frame

Nếu dữ liệu văn bản của bạn nằm trong một data frame, bạn có thể dùng DataframeSource() để phân tích. Data frame truyền vào DataframeSource() phải có cấu trúc cụ thể:

  • Cột một phải có tên doc_id và chứa một chuỗi duy nhất cho mỗi hàng.
  • Cột hai phải có tên text với mã hóa "UTF-8" (khá tiêu chuẩn).
  • Bất kỳ cột nào khác, từ cột 3 trở đi, được xem là metadata và sẽ được giữ lại như vậy.

Bài tập này giới thiệu meta() để trích xuất metadata gắn với mỗi tài liệu. Thường dữ liệu của bạn sẽ có metadata như tác giả, ngày tháng, thẻ chủ đề hoặc địa điểm giúp ích cho phân tích. Khi văn bản đã là một corpus, bạn có thể dùng meta() để xem thông tin bổ sung ở cấp độ tài liệu.

Hướng dẫn

100 XP

Trong workspace của bạn có một data frame đơn giản tên example_text với đúng tên cột và một số metadata. Cũng có vec_corpus là một volatile corpus được tạo bằng VectorSource()

  • Tạo df_source bằng DataframeSource() với example_text.
  • Tạo df_corpus bằng cách chuyển df_source thành đối tượng corpus volatile với VCorpus().
  • In df_corpus. Hãy để ý nó có bao nhiêu tài liệu và số lượng điểm metadata ở cấp tài liệu được giữ lại.
  • Dùng meta() trên df_corpus để in metadata gắn với tài liệu.
  • Xem đối tượng vec_corpus đã được nạp sẵn. So sánh số lượng tài liệu với df_corpus.
  • Dùng meta() trên vec_corpus để so sánh bất kỳ metadata nào giữa vec_corpus và df_corpus.