1. 학습
  2. /
  3. 강의
  4. /
  5. R을 활용한 감성 분석

Connected

연습 문제

TM 복습 (II)

이제 문서 단어 행렬(DTM)을 만들어 봅시다. DTM의 구조는 다음과 같습니다.

  • 행렬의 각 행은 하나의 문서를 나타냅니다.
  • 각 열은 고유한 단어 토큰입니다.
  • 행렬의 값은 각 문서에서 해당 단어가 사용된 횟수를 나타냅니다.

DTM은 많은 bag of words 분석의 기반이 됩니다. 이 강의의 후반부에서는 관련 개념인 단어 문서 행렬(TDM)도 활용하게 됩니다. TDM은 DTM의 전치 행렬로, 열이 문서를 나타내고 행이 고유 단어 토큰을 나타냅니다.

DTM은 코퍼스를 정제한 후(clean_corpus() 사용) 구성해야 합니다. 이를 위해 코퍼스 객체에 DocumentTermMatrix()를 호출하세요.

tm_dtm <- DocumentTermMatrix(tm_clean)

더 자세한 복습이 필요하다면 R에서 Bag-of-Words로 텍스트 마이닝하기 강의를 참고하세요. 이 두 연습 문제를 통해 감정 분석을 시작할 준비가 충분히 되었기를 바랍니다!

이 데이터는 Twitter의 실제 데이터이므로 비속어나 불쾌한 표현이 포함될 수 있다는 점을 유의하세요(이번 연습 문제와 이후 실제 Twitter 데이터를 사용하는 연습 문제 모두 해당됩니다).

지침

100 XP

커피를 언급한 트윗 1,000개가 담긴 VCorpus() 객체 clean_text가 준비되어 있습니다. 트윗은 앞서 소개한 전처리 단계로 정제되었으며, 이 코퍼스로부터 DTM을 생성하는 것이 목표입니다.

  • clean_text 코퍼스에 DocumentTermMatrix()를 적용하여 단어 빈도 가중치가 적용된 DTM을 tf_dtm이라는 이름으로 생성하세요.
  • as.matrix()를 사용하여 DocumentTermMatrix() 객체를 일반 행렬로 변환하세요. 새 객체의 이름은 tf_dtm_m으로 지정하세요.
  • dim()을 사용하여 행렬의 차원을 확인하세요.
  • 대괄호 인덱싱으로 행렬의 일부를 살펴보세요.
  • 행 16~20, 열 2975~2985를 선택하세요.
  • "working"이라는 단어의 빈도 값을 확인하세요.