1. Learn
  2. /
  3. Courses
  4. /
  5. Nhập môn Phân tích Văn bản bằng R

Connected

Exercise

Làm sạch và đếm

Loại bỏ stop words để khám phá nội dung chỉ của các tweet về hãng hàng không được phân loại là khiếu nại trong twitter_data.

Instructions

100 XP
  • Tokenize các tweet trong twitter_data. Đặt tên cột chứa các từ đã tách là word.
  • Loại bỏ stop words mặc định khỏi twitter_data đã được tokenize.
  • Lọc để chỉ giữ các khiếu nại.
  • Tính số lần xuất hiện của từ dựa trên văn bản đã tokenize và làm sạch, rồi sắp xếp giảm dần theo số đếm.