1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Sentiment Analysis

Connected

연습 문제

첫 번째 BOW

Bag-of-words는 텍스트를 수치 형태로 바꾸는 접근 방식이에요.

이 연습 문제에서는 다음 연습 문제에서 더 큰 데이터셋으로 넘어가기 전에 annak 리스트에 BOW를 적용해 볼 거예요.

여러분의 과제는 이 리스트에 CountVectorizer()를 사용해 BOW를 적용하는 거예요. 이 변환은 텍스트의 감성을 이해하기 위한 첫걸음입니다. 강한 감성을 담고 있을 수 있는 단어들에 주의해 보세요.

CountVectorizer()의 출력은 0이 아닌 항목만 저장하는 희소 행렬이라는 점을 기억하세요. 이 행렬의 실제 내용을 확인하려면 .toarray() 메서드를 사용해 밀집 배열로 변환합니다.

또한 이 경우 텍스트가 짧기 때문에 max_features 인수를 지정할 필요가 없어요.

지침

100 XP
  • sklearn.feature_extraction.text에서 count vectorizer 함수를 가져오세요.
  • 작은 데이터셋에 대해 벡터라이저를 생성하고 적합하세요.
  • transform() 메서드를 호출해 anna_bow라는 이름의 BOW 표현을 만드세요.
  • BOW 결과를 밀집 배열로 출력하세요.