1. Learn
  2. /
  3. Courses
  4. /
  5. R로 배우는 자연어 처리 입문

Connected

Exercise

희소 행렬

영상 강의에서 희소 행렬에 대해 배웠습니다. 텍스트 문서 수와 고유 단어 수가 증가하면 희소 행렬은 계산 측면에서 큰 부담이 될 수 있습니다. 트윗에는 이모지, 속어, 약어 등 다양한 형태의 언어가 사용되므로 단어 표현을 만들 때 쉽게 희소 행렬이 만들어집니다.

이번 연습에서는 러시아어 트윗 데이터셋이 얼마나 희소한지 계산하는 과정을 단계별로 따라가 보겠습니다. 이는 텍스트 분석이 얼마나 빠르게 큰 계산 문제로 커질 수 있는지 보여 주는 작은 예시입니다.

Instructions 1/4

undefined XP
    1
    2
    3
    4
  • 토큰화 후 불용어를 제거하여 데이터셋의 고유 단어 총수를 구하세요.