1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Connected

Bài tập

Chuẩn bị dữ liệu

Trong cuộc bầu cử Mỹ năm 2016, các bot tweet từ Nga được dùng để liên tục phát tán thông điệp chính trị tới cả đảng Dân chủ và Cộng hòa. Bạn được cung cấp một bộ dữ liệu các tweet như vậy tên là russian_tweets. Bạn quyết định phân loại các tweet này theo xu hướng thiên tả (Democrat) hoặc thiên hữu (Republican). Trước khi xây dựng mô hình phân loại, bạn cần làm sạch và chuẩn bị văn bản cho việc mô hình hóa.

Hướng dẫn

100 XP
  • Hoàn tất bước tách token bằng cách stemming các token.
  • Dùng cast_dtm() để tạo ma trận tài liệu–thuật ngữ (document-term matrix).
  • Áp dụng trọng số tfidf cho ma trận tài liệu–thuật ngữ.
  • In ma trận ra.