1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích dữ liệu mạng xã hội bằng R

Connected

Bài tập

Loại bỏ URL và các ký tự không phải chữ

Văn bản tweet do người dùng Twitter đăng tải thường không có cấu trúc, nhiễu và thô.

Nó chứa biểu tượng cảm xúc, URL và số. Những thông tin dư thừa này cần được làm sạch trước khi phân tích để cho ra kết quả đáng tin cậy.

Trong bài tập này, bạn sẽ loại bỏ URL và thay thế các ký tự không phải chữ bằng dấu cách.

Khung dữ liệu tweet twt_telmed, với 1000 tweet trích xuất về "telemedicine", đã được nạp sẵn cho bài tập này.

Thư viện qdapRegex cũng đã được nạp sẵn cho bài tập này.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Trích xuất văn bản tweet từ bộ dữ liệu twt_telmed đã được nạp sẵn.