1. 학습
  2. /
  3. 강의
  4. /
  5. R을 활용한 감성 분석

Connected

연습 문제

TM 복습 (I)

Text Mining: Bag of Words 과정에서 코퍼스(corpus)가 텍스트의 집합이라는 것을 배우고, 텍스트 전처리를 위한 여러 함수를 학습했습니다. 간단히 복습하자면, 코퍼스를 생성하고 정제하는 방법은 다음과 같습니다. 이 과정은 감정 분석을 다루지만 텍스트 마이닝의 일부이므로, 복습이 도움이 될 것입니다.

  • VectorSource()를 사용해 문자 벡터를 텍스트 소스로 변환합니다.
  • VCorpus()를 사용해 텍스트 소스를 코퍼스로 변환합니다.
  • tm의 removePunctuation(), stripWhitespace(), 그리고 qdap의 replace_abbreviation() 같은 정제 함수를 사용해 불필요한 문자를 제거합니다.

이 연습 문제에서는 보다 편리하게 사용할 수 있도록 표준 전처리 함수들을 모아 만든 커스텀 함수 clean_corpus()가 준비되어 있습니다.

clean_corpus()는 VCorpus()의 출력을 받아 정제 함수를 적용합니다. 예시는 다음과 같습니다.

processed_corpus <- clean_corpus(my_corpus)

지침

100 XP

R 세션에는 두 개의 짧은 문서가 담긴 텍스트 벡터 tm_define과 함수 clean_corpus()가 준비되어 있습니다.

  • VectorSource()를 tm_define에 적용하여 tm_vector 객체를 만드세요.
  • tm_vector에 VCorpus()를 적용하여 tm_corpus를 만드세요.
  • content()를 사용해 tm_corpus의 첫 번째 문서 내용을 확인하세요.
    • 코퍼스 내 문서는 리스트 구문으로 접근하므로 이중 대괄호를 사용하세요. 예: [[1]]
  • 커스텀 함수 clean_corpus()를 tm_corpus에 적용하여 텍스트를 정제하고, 새 객체 이름을 tm_clean으로 지정하세요.
  • tm_clean의 첫 번째 문서를 다시 확인하여 clean_corpus() 적용 후 텍스트가 어떻게 변경되었는지 살펴보세요.