1. Belajar
  2. /
  3. Kursus
  4. /
  5. Python으로 배우는 NLP 피처 엔지니어링

Connected

Latihan

영화 리뷰를 위한 BoW 벡터

이 연습 문제에서는 영화 리뷰로 구성된 두 개의 pandas Series, X_train과 X_test가 제공됩니다. 각각 학습용과 테스트용 리뷰 데이터예요. 여러분의 과제는 리뷰를 전처리하고 CountVectorizer를 사용해 두 데이터셋에 대한 BoW 벡터를 생성하는 것입니다.

BoW 벡터 행렬 X_train_bow와 X_test_bow를 만들고 나면, 여기에 Machine Learning 모델을 적용해 감성 분석을 수행할 아주 좋은 준비가 됩니다.

Instruksi

100 XP
  • sklearn 라이브러리에서 CountVectorizer를 가져오세요.
  • 모든 단어를 소문자로 변환하고 english 불용어를 제거하도록 설정하여 vectorizer라는 이름의 CountVectorizer 객체를 생성하세요.
  • X_train을 사용해 vectorizer를 학습(fit)한 다음, 이를 사용해 X_train을 변환하여 BoW 벡터 집합 X_train_bow를 생성하세요.
  • vectorizer로 X_test를 변환하여 BoW 벡터 집합 X_test_bow를 생성하세요.