1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 NLP 피처 엔지니어링

Connected

연습 문제

영화 태그라인을 위한 BoW 모델

이 연습 문제에서는 7,000개가 넘는 영화 태그라인으로 구성된 corpus가 제공됩니다. 여러분의 과제는 이 태그라인에 대한 bag-of-words 표현인 bow_matrix를 생성하는 것입니다. 이번 연습에서는 텍스트 전처리 단계는 생략하고, 바로 bow_matrix를 생성하겠습니다.

또한 생성된 bow_matrix의 형태도 살펴보겠습니다. corpus의 처음 다섯 개 태그라인은 확인할 수 있도록 콘솔에 출력되어 있습니다.

지침

100 XP
  • sklearn에서 CountVectorizer 클래스를 가져오세요.
  • CountVectorizer 객체를 생성하고 이름을 vectorizer로 지정하세요.
  • fit_transform()을 사용해 corpus에 대한 bow_matrix를 생성하세요.