1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích dữ liệu mạng xã hội bằng R

Connected

Bài tập

Tạo corpus và chuyển sang chữ thường

Corpus là một danh sách các tài liệu văn bản. Bạn cần chuyển văn bản tweet thành một corpus để hỗ trợ các bước xử lý văn bản tiếp theo.

Khi phân tích văn bản, bạn muốn đảm bảo một từ không bị tính thành hai từ khác nhau chỉ vì khác chữ hoa/chữ thường. Vì vậy, bạn cần chuyển văn bản về chữ thường.

Trong bài tập này, bạn sẽ tạo một corpus văn bản và chuyển tất cả ký tự về chữ thường.

Đầu ra văn bản đã làm sạch từ bài tập trước đã được nạp sẵn dưới tên twts_gsub.

Thư viện tm đã được nạp sẵn cho bài tập này.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Chuyển văn bản trong data frame twt_gsub thành một corpus văn bản.