1. 학습
  2. /
  3. 강의
  4. /
  5. R로 소셜 미디어 데이터 분석하기

Connected

연습 문제

불용어와 불필요한 공백 제거

텍스트 코퍼스에는 보통 "a", "an", "the", "of", "but"처럼 흔히 쓰이는 단어가 많이 포함되어 있어요. 자연어 처리에서는 이를 불용어(stop words)라고 합니다.

불용어는 일반적으로 텍스트 전처리 과정에서 제거하여, 코퍼스의 더 중요한 단어들에 집중해 인사이트를 얻을 수 있도록 합니다.

또한 특수문자, 구두점, 숫자, 불용어를 제거하는 과정에서 생긴 추가 공백도 코퍼스에서 제거해야 합니다.

이전 연습 문제에서 만든 코퍼스는 twt_corpus_lwr로 미리 로드되어 있습니다.

이 연습 문제에는 tm 라이브러리가 미리 로드되어 있습니다.

지침 1/2

undefined XP
    1
    2
  • tm_map() 함수를 사용해 코퍼스 twt_corpus_lwr에서 영어 불용어를 제거하세요.