1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Phân tích Văn bản bằng R

Connected

Bài tập

Đếm loại người dùng

Đếm tần suất là dạng tóm tắt cốt lõi cho dữ liệu phân loại. Vì văn bản là dữ liệu phân loại, bạn cần quen với việc tính số đếm. twitter_data gồm cả tweet phàn nàn và không phàn nàn, được chỉ ra bởi cột complaint_label, và còn có cột usr_verified cho biết người dùng đã được xác minh hay chưa (tức là họ đã được Twitter xác nhận danh tính). Lưu ý cột này có kiểu <lgl>, nghĩa là logical. Người dùng đã xác minh có phàn nàn nhiều hơn không?

Hướng dẫn

100 XP
  • Nạp gói tidyverse, bao gồm dplyr và ggplot2.
  • Lọc dữ liệu để chỉ giữ các tweet là phàn nàn.
  • Đếm số người dùng đã xác minh và chưa xác minh đã đăng tweet phàn nàn.