1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích cảm xúc trong R

Connected

Bài tập

Phép màu kỳ diệu của NRC

Cuối cùng nhưng không kém phần quan trọng, bạn sẽ làm việc với bộ từ điển NRC, bộ này gán nhãn từ theo nhiều trạng thái cảm xúc. Bạn còn nhớ bánh xe cảm xúc của Plutchik chứ? Từ điển NRC gắn thẻ từ theo 8 cảm xúc của Plutchik cộng thêm nhãn tích cực/tiêu cực.

Trong bài tập này có một toán tử mới, %in%, dùng để so khớp một vector với vector khác. Trong đoạn mã dưới đây, %in% sẽ trả về FALSE, FALSE, TRUE. Lý do là trong some_vec, 1 và 2 không có trong some_other_vector, còn 3 có và trả về TRUE. %in% rất hữu ích để tìm các phần tử khớp.

some_vec <- c(1, 2, 3)
some_other_vector <- c(3, "a", "b")
some_vec %in% some_other_vector

Một toán tử mới nữa là !. Với các điều kiện logic, thêm ! sẽ đảo ngược kết quả. Ở ví dụ trên, FALSE, FALSE, TRUE sẽ thành TRUE, TRUE, FALSE. Kết hợp với %in% sẽ đảo ngược phản hồi và rất hữu ích khi muốn loại bỏ các phần tử đã khớp.

!some_vec %in% some_other_vector

Chúng tôi đã tạo oz, phiên bản tidy của tác phẩm The Wizard of Oz, cùng với nrc chứa bộ từ điển "NRC" với các cột đã được đổi tên.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Inner join oz với từ điển nrc.
    • Gọi inner_join() để nối các tibble.
    • Nối by cột term trong văn bản và cột word trong từ điển.
  • Lọc chỉ giữ các cảm xúc của Plutchik và bỏ các từ tích cực hoặc tiêu cực trong từ điển.
    • Dùng filter() để giữ các hàng mà sentiment không phải "positive" hoặc "negative".
  • Gom nhóm theo cảm xúc.
    • Gọi group_by(), truyền sentiment (không có dấu ngoặc kép).
  • Tính tổng số lần xuất hiện của mỗi cảm xúc.
    • Gọi summarize(), đặt total_count bằng sum() của count.
    • Gán kết quả vào oz_plutchik.