1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 자연어 처리 입문

Connected

연습 문제

텍스트 전처리: 어간 추출(Stemming)

텍스트 분석에서는 단어의 어미보다 뿌리(기본형)가 더 중요한 경우가 많아요. 예를 들어 Animal Farm은 제목에서 알 수 있듯 동물에 관한 책입니다. 그런데 animal's가 248회, animal이 107회 언급된 사실만으로는 분석에 큰 도움이 되지 않을 수 있어요.

tidy_animal_farm에는 Animal Farm에서 추출한 단어가 토큰화되어 있고 불용어가 제거된 tibble이 들어 있습니다. 다음 단계는 단어의 어간을 추출(stem)하고 그 결과를 살펴보는 것입니다.

지침

100 XP
  • dplyr와 SnowballC를 사용해 tidy_animal_farm의 단어에 어간 추출을 적용하세요.
  • tidy_animal_farm에서 기존 단어 빈도를 출력하세요.
  • stemmed_animal_farm에서 새로운 단어 빈도를 출력하세요.