音声テキストの分類器を作成する

これまでにカスタマーサポートの通話音声を文字起こししました。次は、そのテキストが pre_purchase（購入前）か post_purchase（購入後）かを分類するモデルを作成します。

pre_purchase の通話は45件、post_purchase の通話は57件あります。

学習用データは train_df、予測用データは test_df に格納されています。

それぞれの .head() をコンソールに表示して確認してみてください。

テキストサンプルを数値に変換するために、CountVectorizer() と TfidfTransformer() を使って sklearn pipeline を構築し、最後に MultinomialNB() 分類器で各サンプルがどのカテゴリかを学習させます。

このモデルはここでの小さな例ではうまく動作しますが、より大規模なテキストに対しては、さらに高度な手法を検討したほうがよい場合があります。

CountVectorizer()、TfidfTransformer()、MultinomialNB() を使って text_classifier を作成します。
text_classifier を train_df.text と train_df.label で学習させます。

演習