単語のカウント（I）

全体的な情報を整理できたら、各テキストの実際の内容に基づいた特徴量作成に進みます。これには、前のレッスンで行ったカテゴリ変数の扱いと似たアプローチが使えます。

データセット内のユニークな単語ごとに列を作成します。
各レコードについて、その単語が出現した回数を数え、その数を対応する列に入力します。

この「カウント」列を使って Machine Learning モデルを学習させることができます。

sklearn.feature_extraction.text から CountVectorizer をインポートします。
CountVectorizer をインスタンス化し、cv に代入します。
ベクトライザを text_clean 列に対して学習させます。
ベクトライザで生成された特徴量名を出力します。