1. Учиться
  2. /
  3. Courses
  4. /
  5. Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Connected

Exercise

Tạo một corpus

Bạn đã tạo một tibble tên là russian_tweets chứa khoảng 20.000 tweet do bot tự động tạo trong kỳ bầu cử Mỹ năm 2016 để bạn có thể phân tích văn bản. Tuy nhiên, sau khi xem qua các lựa chọn phân tích phù hợp với mục tiêu của mình, bạn cho rằng gói tm là con đường dễ dàng nhất để tiếp tục. Để tiến hành phân tích, trước hết bạn phải tạo một corpus và đính kèm các siêu dữ liệu (metadata) có thể hữu ích.

Lưu ý đây là dữ liệu thật từ Twitter, vì vậy luôn có rủi ro nó có thể chứa lời thô tục hoặc nội dung gây xúc phạm (trong bài tập này và bất kỳ bài tập tiếp theo nào cũng sử dụng dữ liệu Twitter thật).

Инструкции

100 XP
  • Tạo một corpus sử dụng cột content của russian_tweets.
  • Đính kèm cả hai cột following và followers làm siêu dữ liệu cho tweet_corpus.
  • In vài dòng đầu của bảng siêu dữ liệu.