1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. R로 배우는 자연어 처리 입문

Connected

Exercises

텍스트 전처리: 불용어 제거

불용어는 글쓰기에서 피할 수 없습니다. 하지만 두 텍스트가 서로 얼마나 유사한지 판단하거나 텍스트에서 주제를 찾으려 할 때는 불용어가 방해가 될 수 있어요. 예를 들어, 소설 Animal Farm의 1장은 단어가 2,636개뿐이지만 그중 거의 200개가 "the"입니다.

일반적으로 텍스트 분석 프로젝트에서 "the"는 큰 도움이 되지 않습니다. 이번 연습에서는 Animal Farm 1장에서 불용어를 제거해 보겠습니다.

คำแนะนำ 1 / 3

undefined XP
    1
    2
    3
  • text_column 열의 텍스트를 단어 단위로 토큰화하세요.