TM 복습 (I)

Text Mining: Bag of Words 과정에서 코퍼스(corpus)가 텍스트의 집합이라는 것을 배우고, 텍스트 전처리를 위한 여러 함수를 학습했습니다. 간단히 복습하자면, 코퍼스를 생성하고 정제하는 방법은 다음과 같습니다. 이 과정은 감정 분석을 다루지만 텍스트 마이닝의 일부이므로, 복습이 도움이 될 것입니다.

VectorSource()를 사용해 문자 벡터를 텍스트 소스로 변환합니다.
VCorpus()를 사용해 텍스트 소스를 코퍼스로 변환합니다.
tm의 removePunctuation(), stripWhitespace(), 그리고 qdap의 replace_abbreviation() 같은 정제 함수를 사용해 불필요한 문자를 제거합니다.

이 연습 문제에서는 보다 편리하게 사용할 수 있도록 표준 전처리 함수들을 모아 만든 커스텀 함수 clean_corpus()가 준비되어 있습니다.

clean_corpus()는 VCorpus()의 출력을 받아 정제 함수를 적용합니다. 예시는 다음과 같습니다.

processed_corpus <- clean_corpus(my_corpus)

R 세션에는 두 개의 짧은 문서가 담긴 텍스트 벡터 tm_define과 함수 clean_corpus()가 준비되어 있습니다.

VectorSource()를 tm_define에 적용하여 tm_vector 객체를 만드세요.
tm_vector에 VCorpus()를 적용하여 tm_corpus를 만드세요.
content()를 사용해 tm_corpus의 첫 번째 문서 내용을 확인하세요.
- 코퍼스 내 문서는 리스트 구문으로 접근하므로 이중 대괄호를 사용하세요. 예: [[1]]
커스텀 함수 clean_corpus()를 tm_corpus에 적용하여 텍스트를 정제하고, 새 객체 이름을 tm_clean으로 지정하세요.
tm_clean의 첫 번째 문서를 다시 확인하여 clean_corpus() 적용 후 텍스트가 어떻게 변경되었는지 살펴보세요.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제