1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Connected

Bài tập

Kiểm tra perplexity

Bạn được cung cấp một tập dữ liệu gồm các tweet do các bot đăng trong kỳ bầu cử Mỹ năm 2016. Sếp của bạn đã xác định hai loại tài khoản quan tâm là Left và Right. Sếp yêu cầu bạn thực hiện topic modeling trên các tweet từ các bot thuộc nhóm Right. Ngoài ra, sếp cũng muốn tóm tắt nội dung các tweet này bằng topic modeling. Hãy chạy topic modeling với 5, 15 và 50 chủ đề để ước lượng nhìn chung dữ liệu này chứa khoảng bao nhiêu chủ đề.

Hướng dẫn 1/3

undefined XP
  • 1
    • Thực hiện LDA bằng phương pháp 'Gibbs' với 5 chủ đề và in điểm perplexity cho cả hai tập train và test.
  • 2
    • Thực hiện topic modeling với 15 chủ đề.
  • 3
    • Thực hiện topic modeling với 50 chủ đề.