Ghi nhận metadata trong tm

Tùy vào mục tiêu, bạn có thể muốn giữ lại metadata về tài liệu khi tạo corpus.

Để ghi nhận metadata ở cấp độ tài liệu, tên và thứ tự các cột phải là:

doc_id - chuỗi định danh duy nhất cho mỗi tài liệu
text - phần văn bản cần phân tích
... - mọi cột khác sẽ được phân loại tự động thành metadata.

Đôi khi bạn sẽ cần đổi tên cột để khớp với yêu cầu của DataframeSource(). Hàm names() rất hữu ích cho việc này.

tweets đã có trong không gian làm việc của bạn dưới dạng data frame với các cột "num", "text", "screenName" và "created".

Đổi tên cột đầu tiên của tweets thành "doc_id".
Thiết lập lược đồ tài liệu với DataframeSource() trên data frame tweets nhỏ hơn.
Biến bộ sưu tập tài liệu thành một corpus volatile và lồng trong hàm tùy chỉnh clean_corpus().
Áp dụng content() lên tweet đầu tiên với dấu ngoặc kép như text_corpus[[1]] để xem văn bản thuần đã được làm sạch.
Xác nhận rằng toàn bộ metadata đã được ghi nhận bằng hàm meta() trên tài liệu đầu tiên với dấu ngoặc đơn.

Hãy nhớ: khi truy cập một phần của corpus, dấu ngoặc kép hoặc đơn tạo ra khác biệt! Trong bài này, bạn sẽ dùng ngoặc kép với content() và ngoặc đơn với meta().

Bài tập

Ghi nhận metadata trong tm

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập