음성 전사 텍스트 분류기 만들기

이제 고객 상담 통화 오디오 데이터를 텍스트로 전사했으니, 해당 텍스트가 pre_purchase인지 post_purchase인지 분류하는 모델을 만들어 보겠습니다.

pre_purchase 통화 예시는 45개, post_purchase 통화 예시는 57개가 있습니다.

모델이 학습할 데이터는 train_df에, 예측할 데이터는 test_df에 저장되어 있습니다.

각 데이터프레임의 .head()를 콘솔에 출력해 보세요.

텍스트 샘플을 숫자로 변환하기 위해 CountVectorizer()와 TfidfTransformer()를 사용해 sklearn pipeline을 만들고, 각 샘플이 어떤 카테고리에 속하는지 학습하도록 MultinomialNB() 분류기를 사용하겠습니다.

이 모델은 여기의 작은 예시에서는 잘 동작하지만, 텍스트 양이 더 많아지면 더 정교한 방법을 고려해 보셔도 좋습니다.

CountVectorizer(), TfidfTransformer(), MultinomialNB()를 사용해 text_classifier를 만드세요.
text_classifier를 train_df.text와 train_df.label에 맞춰 학습(fit)하세요.

연습 문제