1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Sentiment Analysis

Connected

연습 문제

n-그램과 어휘 사전 크기를 활용한 BOW

이 연습 문제에서는 Amazon 상품 리뷰인 reviews 데이터셋을 사용해 다시 한 번 bag-of-words를 만들어 보겠습니다. 핵심 과제는 어휘 사전의 크기를 제한하고 토큰 시퀀스의 길이를 지정하는 것입니다.

지침

100 XP
  • sklearn에서 벡터라이저를 가져오세요.
  • 벡터라이저를 구성할 때 다음 매개변수를 지정하세요: 어휘 사전 크기는 1000으로 제한하고, 바이그램만 포함하며, 500개를 초과하는 문서에 등장하는 용어는 무시합니다.
  • 벡터라이저를 review 열에 맞춥니다(fit).
  • BOW 표현으로부터 DataFrame을 만드세요.