1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 NLP 피처 엔지니어링

Connected

연습 문제

영화 태그라인을 위한 n-gram 모델

이 연습 문제에서는 9,000개가 넘는 영화 태그라인으로 구성된 corpus가 제공됩니다. 이 데이터를 대상으로 n이 1, 2, 3인 경우까지 n-gram 모델을 만들고, 각 모델의 특성 수를 확인해 보겠습니다.

그다음 각 모델에서 생성된 특성 수를 비교합니다.

지침

100 XP
  • n=1까지의 n-gram을 사용하는 n-gram 모델을 생성하세요. 이름은 ng1로 하세요.
  • n=2까지의 n-gram을 사용하는 n-gram 모델을 생성하세요. 이름은 ng2로 하세요.
  • n=3까지의 n-gram을 사용하는 n-gram 모델을 생성하세요. 이름은 ng3로 하세요.
  • 각 모델의 특성 개수를 출력하세요.