特徴量を絞り込む

ご覧のとおり、CountVectorizer をデフォルト設定で使うと、コーパス内のあらゆる単語に対して特徴量が作られます。これでは特徴量が多すぎて、分析価値がほとんどないものまで含まれてしまうことがあります。

そのために、CountVectorizer には特徴量数を減らすためのパラメータがあります。

min_df : ある単語が出現する文書の割合がこの値より大きい場合のみ使用します。テキスト間で一般化しない外れ値的な単語を除外するのに使えます。
max_df : ある単語が出現する文書の割合がこの値より小さい場合のみ使用します。例えば "and" や "the" のように、どのコーパスにも現れるわりに価値を加えない非常によく使われる単語を取り除くのに有効です。

CountVectorizer の特徴量数を制限するため、単語が出現できる文書の最小割合を 20%、最大割合を 80% に設定します。
text_clean 列に対して、ベクトライザの学習と適用を1ステップで行います。
変換後の（疎）配列を、カウント値を持つ numpy 配列に変換します。
次元数を表示して、新しい縮約後の配列の形状を確認します。