Ôn nhanh TM (II)

Bây giờ hãy tạo một Document Term Matrix (DTM). Trong DTM:

Mỗi hàng của ma trận đại diện cho một tài liệu.
Mỗi cột là một token từ duy nhất.
Các giá trị trong ma trận thể hiện mức độ sử dụng từ của từng tài liệu.

DTM là nền tảng cho nhiều phân tích dạng bag of words. Sau này trong khóa học, bạn cũng sẽ dùng Term Document Matrix (TDM) liên quan. Đây là ma trận chuyển vị; tức là cột đại diện cho tài liệu và hàng đại diện cho các token từ duy nhất.

Bạn nên dựng DTM sau khi đã làm sạch corpus (dùng clean_corpus()). Để làm vậy, gọi DocumentTermMatrix() trên đối tượng corpus.

tm_dtm <- DocumentTermMatrix(tm_clean)

Nếu bạn cần ôn tập sâu hơn, hãy xem khóa Text Mining with Bag-of-Words in R. Hy vọng hai bài tập này đã giúp bạn sẵn sàng bắt đầu hành trình phân tích cảm xúc!

Lưu ý đây là dữ liệu thực từ Twitter, vì vậy luôn có rủi ro chứa từ ngữ tục tĩu hoặc nội dung gây xúc phạm (trong bài tập này và các bài tập sau cũng dùng dữ liệu Twitter thực).

Chúng tôi đã tạo một đối tượng VCorpus() tên clean_text gồm 1000 tweet nhắc đến coffee. Các tweet đã được làm sạch bằng các bước tiền xử lý trước đó và mục tiêu của bạn là tạo một DTM từ đó.

Áp dụng DocumentTermMatrix() lên corpus clean_text để tạo một DTM trọng số theo tần suất từ, đặt tên là tf_dtm.
Chuyển đối tượng DocumentTermMatrix() thành một ma trận đơn giản với as.matrix(). Đặt tên đối tượng mới là tf_dtm_m.
Kiểm tra kích thước của ma trận bằng dim().
Dùng chỉ số ngoặc vuông để xem một phần con của ma trận.
Chọn các hàng 16 đến 20 và các cột 2975 đến 2985
Ghi lại giá trị tần suất của từ "working."

Bài tập

Ôn nhanh TM (II)

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập