1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 자연어 처리 입문

Connected

연습 문제

텍스트 분석에 실패하는 한 가지 예시

초반에, 텍스트 분석을 하기 전에 불용어를 제거하는 것이 얼마나 중요한지 살펴보셨습니다. 가장 최근 장에서는 코사인 유사도를 사용해 서로 비슷한 텍스트를 식별하는 방법을 복습했죠.

이 연습 문제에서는 텍스트 분석을 제대로 적용하지 못할 때 실제로 어떤 일이 생길 수 있는지 살펴봅니다. 불용어를 제거하지 않은 상태에서, 소설 Animal Farm의 각 장에 대해 코사인 유사도를 계산해 보세요.

지침

100 XP
  • 단어 빈도를 만드는 제공된 코드를 확인하세요. 이 부분은 미리 완료되어 있습니다.
  • widyr의 pairwise_similarity() 함수를 사용해 chapter 열의 각 장에 대한 코사인 유사도를 계산하세요.
  • 결과를 similarity 값이 가장 높은 것부터 정렬하세요.
  • similarity 값의 mean(평균)을 계산하세요.