1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 NLP 피처 엔지니어링

Connected

연습 문제

차원과 전처리 분석하기

이번 연습 문제에서는 이전 문제의 영화 태그라인을 전처리한 lem_corpus가 제공됩니다. 즉, 태그라인을 소문자로 바꾸고 표제어 추출을 했으며, 불용어를 제거했습니다.

여러분의 목표는 표제어가 적용된 태그라인에 대해 bag-of-words 표현인 bow_lem_matrix를 생성하고, 이전 연습 문제에서 얻은 bow_matrix의 형태와 비교하는 것입니다. 확인하실 수 있도록 lem_corpus에 들어 있는 표제어 태그라인 5개가 콘솔에 출력되어 있어요.

지침

100 XP
  • sklearn에서 CountVectorizer 클래스를 임포트하세요.
  • CountVectorizer 객체를 생성하고 이름을 vectorizer로 지정하세요.
  • fit_transform()을 사용하여 lem_corpus에 대한 bow_lem_matrix를 생성하세요.