1. Lära sig
  2. /
  3. Courses
  4. /
  5. Phân tích cảm xúc trong R

Connected

exercise

Tạo Corpora dựa trên Polarity

Trong bài tập này, bạn sẽ thực hiện Bước 3 của quy trình khai phá văn bản. Mặc dù qdap không phải là một gói tidy, bạn sẽ dùng mutate() để thêm một cột mới dựa trên danh sách polarity trả về, biểu diễn điểm số all polarity (đây là gợi ý nhé). Ở chương 3, chúng ta đã dùng hàm tự viết pol_subsections chỉ sử dụng cú pháp base R. Tuy nhiên, để bám theo nguyên tắc tidy, bài tập này dùng filter() rồi giới thiệu thêm pull(). Hàm pull() hoạt động giống như [[ để trích xuất một biến duy nhất.

Sau khi tách nhóm, bạn sẽ gộp tất cả bình luận tích cực và tiêu cực thành hai tài liệu lớn, đại diện cho toàn bộ từ trong các đánh giá thuê nhà tích cực và tiêu cực.

Cuối cùng, bạn sẽ tạo Ma trận Thuật ngữ–Tài liệu (TDM) với trọng số Term Frequency–Inverse Document Frequency (TFIDF). Vì mã trong bài tập này bắt đầu với cấu trúc tidy, một số hàm mượn từ tm được dùng cùng với toán tử %>% để giữ phong cách nhất quán. Nếu bạn chưa quen với các khái niệm cơ bản của gói tm, hãy xem khóa Text Mining with Bag-of-Words in R. Thay vì chỉ đếm số lần một từ xuất hiện (tần suất), các giá trị trong TDM sẽ bị phạt cho những thuật ngữ bị lạm dụng, giúp giảm bớt các từ không mang nhiều thông tin.

Instruktioner 1 / 4

undefined XP
    1
    2
    3
    4
  • Lấy các bình luận tích cực.
    • Dùng mutate để thêm cột polarity, bằng bos_pol$all$polarity.
    • Lọc để giữ các hàng có polarity lớn hơn 0.
    • Dùng pull() để trích xuất cột comments. (Truyền cột này không có dấu ngoặc kép.)
    • Gộp thành một chuỗi duy nhất, ngăn cách bằng khoảng trắng với paste(), truyền collapse = " ".