1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Connected

Bài tập

Ma trận thưa

Trong bài giảng video, bạn đã học về ma trận thưa. Khi số lượng văn bản và số lượng từ độc nhất tăng lên, ma trận thưa có thể trở thành ác mộng tính toán. Việc biểu diễn từ với các tweet rất dễ tạo ra ma trận thưa vì có emoji, tiếng lóng, từ viết tắt và nhiều dạng ngôn ngữ khác được dùng.

Trong bài tập này, bạn sẽ đi qua các bước để tính mức độ thưa của bộ dữ liệu tweet tiếng Nga. Lưu ý rằng đây là một ví dụ nhỏ cho thấy phân tích văn bản có thể nhanh chóng trở thành một bài toán tính toán lớn như thế nào.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Sử dụng tách token và loại bỏ stopword để tìm tổng số từ độc nhất trong bộ dữ liệu.