Ôn nhanh TM (I)

Trong khóa học Text Mining: Bag of Words, bạn đã học rằng một corpus là một tập hợp văn bản, và bạn đã tìm hiểu một số hàm để tiền xử lý văn bản. Tóm lược lại, một cách để tạo và làm sạch corpus là dùng các hàm dưới đây. Dù đây là một khóa học khác, phân tích cảm xúc vẫn thuộc text mining nên phần ôn tập này sẽ hữu ích.

Chuyển một vector ký tự thành nguồn văn bản bằng VectorSource().
Chuyển nguồn văn bản thành corpus bằng VCorpus().
Loại bỏ các ký tự không mong muốn khỏi corpus bằng các hàm làm sạch như removePunctuation() và stripWhitespace() từ tm, và replace_abbreviation() từ qdap.

Trong bài tập này, một hàm tùy chỉnh clean_corpus() đã được tạo từ các hàm tiền xử lý chuẩn để dễ áp dụng hơn.

clean_corpus() nhận đầu ra của VCorpus() và áp dụng các hàm làm sạch. Ví dụ:

processed_corpus <- clean_corpus(my_corpus)

Phiên R của bạn có một vector văn bản, tm_define, gồm hai tài liệu nhỏ và hàm clean_corpus().

Tạo đối tượng tên tm_vector bằng cách áp dụng VectorSource() lên tm_define.
Tạo tm_corpus bằng VCorpus() trên tm_vector.
Dùng content() để xem nội dung của tài liệu đầu tiên trong tm_corpus.
- Truy cập tài liệu trong corpus bằng cú pháp danh sách, nên dùng cặp ngoặc vuông kép, ví dụ [[1]].
Làm sạch văn bản của corpus bằng hàm tùy chỉnh clean_corpus() trên tm_corpus. Đặt đối tượng mới này là tm_clean.
Xem lại tài liệu đầu tiên của đối tượng tm_clean mới để thấy văn bản đã thay đổi thế nào sau khi áp dụng clean_corpus().

Bài tập

Ôn nhanh TM (I)

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập