1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. R로 배우는 자연어 처리 입문

Connected

Bài tập

데이터 준비

2016년 미국 대선 동안 러시아 트윗 봇이 민주당과 공화당 모두에게 정치적 메시지를 지속적으로 유포했습니다. 이러한 트윗으로 구성된 russian_tweets 데이터셋이 주어졌습니다. 이제 이 트윗을 좌성향(민주당) 또는 우성향(공화당)으로 분류하려고 합니다. 분류 모델을 만들기 전에, 먼저 모델링을 위해 텍스트를 정리하고 준비해야 합니다.

Hướng dẫn

100 XP
  • 토큰의 어간을 추출하여 토큰화 과정을 마무리하세요.
  • cast_dtm()을 사용해 문서-단어 행렬(document-term matrix)을 만드세요.
  • tf-idf 가중치를 사용해 문서-단어 행렬에 가중치를 부여하세요.
  • 행렬을 출력하세요.