Twitter 航空会社感情データでの TfIdf

ここでは、TfIdf 手法を使って特徴量を作成します。引き続き tweets データセットを扱います。

この演習では、これまでに学んだ内容を活用して、ストップワードの除去、トークンパターンの使用、n-gram の指定を行います。

最終的な出力は、TfidfVectorizer() で作成された列を持つ DataFrame になります。このような DataFrame は、そのまま教師あり学習モデルに渡すことができます。次の章では、まさにそれに取り組みます。