1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Connected

Bài tập

Ví dụ mô hình phân loại

Trước đó bạn đã chuẩn bị một bộ tweet tiếng Nga để phân loại. Trong số 20.000 tweet, bạn đã lọc các tweet có account_type là Left hoặc Right, và chọn 2000 tweet đầu tiên của mỗi loại. Bạn đã tách từ (tokenize) các tweet, loại bỏ stop words và thực hiện stemming. Ngoài ra, bạn đã chuyển đổi số lần xuất hiện từ thành ma trận tài liệu–thuật ngữ (document-term matrix) với trọng số TFIDF và lưu ma trận này là: left_right_matrix_small.

Bạn sẽ dùng ma trận này để dự đoán liệu một tweet được tạo ra từ bot nghiêng về cánh tả hay bot nghiêng về cánh hữu. Các nhãn nằm trong vector left_right_labels.

Hướng dẫn

100 XP
  • Đặt random seed là 1111 để tái lập kết quả.
  • Tạo tập huấn luyện và tập kiểm tra. Dùng mẫu 75% cho dữ liệu huấn luyện.
  • Chạy mô hình random forest trên dữ liệu huấn luyện, dùng left_right_labels làm vector phản hồi y.
  • In kết quả của random forest.