1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Từ dừng và đám mây từ

Giờ bạn đã vào đúng “tâm thế” khai phá văn bản, đang nhâm nhi một ly chardonnay, hãy đào sâu hơn. Ở đám mây từ trước, "chardonnay" chiếm lĩnh toàn bộ hình. Nó trội đến mức bạn không thể rút ra thêm insight thú vị nào khác.

Hãy thay đổi danh sách từ dừng để bổ sung "chardonnay" nhằm xem những từ nào khác cũng phổ biến nhưng trước đó đã bị lấn át.

Không gian làm việc của bạn có một phiên bản đã làm sạch các tweet về chardonnay, nhưng giờ hãy loại bỏ thêm vài từ không mang lại insight. Bài tập này dùng content() để hiển thị một tweet cụ thể cho bạn so sánh. Nhớ dùng hai dấu ngoặc vuông để đánh chỉ mục danh sách corpus.

Hướng dẫn

100 XP
  • Áp dụng content() lên tài liệu thứ 24 trong chardonnay_corp.
  • Thêm "chardonnay" vào danh sách từ dừng tiếng Anh và gán vào stops.
  • Xem sáu từ cuối cùng trong stops.
  • Tạo cleaned_chardonnay_corp với tm_map() bằng cách truyền vào chardonnay_corp, hàm removeWords() và cuối cùng là danh sách từ dừng stops.
  • Giờ hãy xem lại content của tweet thứ 24 để so sánh kết quả.