1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python에서의 앙상블 기법

Connected

演習

GBM으로 감성 분석하기

이제 reviews 데이터셋에 scikit-learn의 GradientBoostingClassifier를 적용해, 리뷰 텍스트를 기반으로 감성(긍정/부정)을 예측해 보겠습니다.

모델 입력으로 원시 텍스트를 그대로 사용하지는 않아요. 다음 전처리는 미리 완료되어 있습니다:

  1. 결측값이 있는 리뷰 제거
  2. 상위 5개 앱의 데이터만 선택
  3. 리뷰 500개를 무작위로 부분 추출
  4. 리뷰에서 "stop words" 제거
  5. 리뷰를 행렬로 변환하되, 각 특성은 해당 리뷰에서 특정 단어가 나타난 빈도를 의미하도록 구성

텍스트 마이닝을 더 깊이 이해하고 싶으신가요? 그렇다면 Introduction to Natural Language Processing in Python 강좌를 확인해 보세요!

指示

100 XP
  • 100개의 estimator와 0.1의 learning rate로 GradientBoostingClassifier를 구성하세요.
  • 테스트 세트에서 예측값을 계산하세요.
  • 모델을 평가하기 위해 정확도를 계산하세요.
  • 혼동 행렬을 계산해 출력하세요.