GBM으로 감성 분석하기

이제 reviews 데이터셋에 scikit-learn의 GradientBoostingClassifier를 적용해, 리뷰 텍스트를 기반으로 감성(긍정/부정)을 예측해 보겠습니다.

모델 입력으로 원시 텍스트를 그대로 사용하지는 않아요. 다음 전처리는 미리 완료되어 있습니다:

결측값이 있는 리뷰 제거
상위 5개 앱의 데이터만 선택
리뷰 500개를 무작위로 부분 추출
리뷰에서 "stop words" 제거
리뷰를 행렬로 변환하되, 각 특성은 해당 리뷰에서 특정 단어가 나타난 빈도를 의미하도록 구성

텍스트 마이닝을 더 깊이 이해하고 싶으신가요? 그렇다면 Introduction to Natural Language Processing in Python 강좌를 확인해 보세요!

100개의 estimator와 0.1의 learning rate로 GradientBoostingClassifier를 구성하세요.
테스트 세트에서 예측값을 계산하세요.
모델을 평가하기 위해 정확도를 계산하세요.
혼동 행렬을 계산해 출력하세요.