분류 모델링 예시

이전에 분류를 위해 러시아어 트윗 세트를 준비해 두었습니다. 20,000개의 트윗 중에서 account_type이 Left 또는 Right인 트윗만 걸러내고, 각 유형에서 처음 2,000개씩 선택했습니다. 트윗은 이미 단어로 토큰화했고, 불용어를 제거했으며, 어간 추출도 완료했습니다. 또한 단어 빈도를 가중치가 TFIDF 값인 문서-단어 행렬로 변환하여 left_right_matrix_small로 저장해 두었습니다.

이 행렬을 사용해 트윗이 좌파 성향의 트윗 봇에서 생성된 것인지, 우파 성향의 트윗 봇에서 생성된 것인지 예측해 보겠습니다. 레이블은 벡터 left_right_labels에 들어 있습니다.